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PyTorch 中 文 文档 


PyTorch 是 使 用 GPU 和 CPU 优化 的 深度 学 习 张 量 库 。 
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e 致谢 


力求 导 机 制 


本 说 明 将 概述 Autograd 如 何 工作 并 记录 操作 。 了 解 这 些 并 不 是 绝对 必要 的 ， 但 我 们 建议 您 熟 
悉 它 ， 因 为 它 将 帮助 您 编写 更 高 效 ， 更 简洁 的 程序 ， 并 可 帮助 您 进行 调试 。 


后 向 中 排除 子 图 


每 个 变量 都 有 两 个 标志 : requires_grad 和 volatile 。 它们 都 允许 从 梯度 计算 中 精细 地 排除 
子 图 ， 并 可 以 提高 效率 。 
requires grad 


如 果 有 一 个 单一 的 输入 操作 需要 梯度 ， 它 的 输出 也 需要 梯度 。 相 反 ， 只 有 所 有 输入 都 不 需要 
度 ， 输 出 才 不 需要 。 如 果 其 中 所 有 的 变量 都 不 需要 梯度 进行 ， 后 向 计算 不 会 在 子 图 中 执 


行 。 
>>> x = Variable(torch.randn(5, 5)) 
>>> y = Variable(torch.randn(5, 5)) 
>>> z = Variable(torch.randn(5, 5), requires grad-True) 
>>>a=x+y 
>>> a.requires_grad 
False 


>>>b=a+z 
>>> b.requires grad 


这 个 标志 特别 有 用 ， 当 您 想 要 冻结 部 分 模型 时 ， 或 者 您 事先 知道 不 会 使 用 某 些 参数 的 梯度 

例如 ， 如 果 要 对 预先 训练 的 CNN 进 行 优化 ， 只 要 切换 冻结 模型 中 的 requires grad 标志 就 足够 
直到 计算 到 最 后 一 层 才 会 保存 中 间 缓 冲 区 ， 其 中 的 仿 射 变 换 将 使 用 需要 梯度 的 权重 并 且 

网 络 的 输出 也 将 需要 它们 。 


model = torchvision.models.resneti8(pretrained-True) 
for param in model.parameters(): 
param.requires grad - False 
# Replace the last fully-connected layer 
# Parameters of newly constructed modules have requires grad-True by default 
model.fc = nn.Linear(512, 100) 
4 Optimize only the classifier 
optimizer = optim.SGD(model.fc.parameters(), lr-ie-2, momentum=0.9) 


volatile 


纯粹 的 inference 模 式 下 推荐 使 用 volatile ， 当 你 确定 你 甚至 不 会 调用 .backward() 时 。 它 比 
任何 其 他 自动 求 导 的 设置 更 有 效 它 将 使 用 绝对 最 小 的 内 存 来 评估 模型 。 volatile 也 决定 


了 require grad is False ? 





volatile 不 同 于 require grad 的 传递 。 如 果 一 个 操作 甚至 只 有 有 一 个 volatile 的 输入 ， 它 
出 也 将 是 volatile ° volatility 比 “ 不 需要 梯度 "更 容易 传递 只 需要 一 

个 volatile 的 输入 即 可 得 到 一 个 volatile 的 输出 ， 相 对 的 ， 需 要 所 有 的 输入 “不 需要 梯度 ” 才 
Arr 需要 梯度 的 输出 。 使 用 volatile 标 志 ， 您 不 需要 更 改 模型 参数 的 任何 设置 来 用 于 
inference。 创 建 一 个 volatile 的 输入 就 够 了 ， 这 将 保证 不 会 保存 中 间 状 态 。 





>>> regular input = Variable(torch.randn(5, 5)) 

>>> volatile input = Variable(torch.randn(5, 5), volatile=True) 
>>> model = torchvision.models.resneti8(pretrained-True) 
>>> model(regular input).requires grad 

True 

>>> model(volatile input).requires grad 

False 

>>> model(volatile input).volatile 

True 

>>> model(volatile input).creator is None 

True 


自动 求 导 如 何 编码 历史 信息 


每 个 变量 都 有 一 个 ,creator 属性 ， 它 指向 把 它 作为 输出 的 函数 。 这 是 一 个 由 Function *1 
作为 节点 组 成 的 有 向 无 环 图 (DAG) 的 入 口 点 ， 它 们 之 间 的 引用 就 是 图 的 边 。 每 次 执行 一 个 
操作 时 ， 一 个 表示 它 的 新 Function 就 被 实例 化 ， 它 的 — 方法 被 调用 ， 并 且 它 输出 
的 variable 的 创建 者 被 设置 为 这 个 Function 。 然 后 ， 通 过 跟踪 从 任何 变量 到 叶 节 点 的 路 
径 ， 可 以 重建 创建 数据 的 操作 序列 ， 并 自动 计算 梯度 


OA 
Python 控 制 流 语句 ， 这 样 可 以 在 每 次 迭代 时 改变 图 的 整体 形状 和 大 小 。 在 启动 训练 之 前 不 必 
对 所 有 可 能 的 路 径 进行 编码 一 一 what you run is what you differentiate. 


Variable 上 的 In-place 操 作 


在 自动 求 导 中 支持 in-place 操 作 是 一 件 很 困难 的 事情 ， 我 们 在 大 多 数 情况 下 都 不 鼓励 使 用 它 
们 。Autograd 的 缓冲 区 释放 和 重用 非常 高 效 ， 并 且 很 少 场合 下 in-place 操 作 能 实际 上 明显 降低 
内 存 的 使 用 量 。 除 非 您 在 内 存 压力 很 大 的 情况 下 ， 否 则 您 可 能 永远 不 需要 使 用 它们 。 


限制 in-place 操 作 适 用 性 主要 有 两 个 原因 : 


1 . 窗 盖 梯度 计算 所 需 的 值 。 这 就 是 为 什么 变量 不 支持 log 。 它 的 梯度 公式 需要 原始 输入 ， 
而 虽然 通过 计算 反 向 操作 可 以 重新 创建 它 ， 但 在 数值 上 是 不 稳定 的 ， 并 且 需 要 额外 的 工作 ， 
这 往往 会 与 使 用 这 些 功 能 的 目的 相悖 。 


2 - 每 个 in-place 操 作 实 际 上 需要 实现 重 写 计 算 图 。 不 合适 的 版 本 只 需 分 配 新 对 象 并 保留 对 旧 
图 的 引用 ， 而 in-place 操 作 则 需要 将 所 有 输入 的 creator pee 表示 此 操作 的 Function ° 3X 
就 比较 棘手 ， 特 别 是 如 果 有 许多 变量 引用 相同 的 存储 〈 例 过 索引 或 转 置 创建 的 ) ， 并 且 


如 果 被 修改 输入 的 存储 被 任何 其 他 variable 引用 ， 则 in-place 函 数 实际 上 会 抛 出 错误 。 


In-place 正 确 性 检查 


每 个 变量 


保留 有 version counter， 它 每 次 都 会 递增 ， 当 在 任何 操作 中 被 使 用 时 。 


3$ Function 保存 任何 用 于 后 向 的 tensor 时 ， 还 会 保存 其 包含 变量 的 version counter。 一 旦 访 


问 self.saved tensors ， 它 将 被 检查 ， 如 果 它 大 于 保存 的 值 ， 则 会 引起 错误 。 


CUDA% 3. 


torch.cuda 会 记录 当前 选择 的 GPU， 并且 分 配 的 所 有 CUDA 张 量 将 在 上 面 创建 。 可 以 使 
用 torch.cuda.device 上 下 文 管理 器 更 改 所 选 设备 。 


但 是 ， 一 旦 张 量 被 分 配 ， 您 可 以 直接 对 其 进行 操作 ， 而 不 考虑 所 选择 的 设备 ， 结 果 将 始终 放 
在 与 张 量 相 同 的 设备 上 。 


默认 情况 下 ， 不 支持 跨 GPU 操 作 ， 唯 一 的 例外 是 copy_() ° 除非 启用 对 等 存储 器 访问 ， 否 则 
十 分 布 不 同 设备 上 的 张 量 任何 启动 操作 的 尝试 都 将 会 引发 错误 。 


下 面 你 可 以 找到 一 个 展示 如 下 的 小 例子 


X = torch. cuda. oan ) 

# x.get device() == 0 

y = torch. Fue uscire cuda( ) 
# y.get device() -- 0 


with torch.cuda.device(1): 
# allocates a tensor on GPU 1 
a - torch.cuda.FloatTensor(1) 


# transfers a tensor from CPU to GPU 1 
b = torch.FloatTensor(1).cuda() 





# a.get device() == b.get device() == 1 

c=a+t+b 

# c.get device() == 1 

z=x+y 

# z.get device() == 0 

# even within a context, you can give a GPU id to the .cuda call 
d = torch.randn(2). cuda(2) 

# d.get device() -- 2 


最 佳 实践 
使 用 国定 的 内 存 缓冲 区 


edil 自 固定 (页 锁 ) 内 存 时 ， 主 机 到 GPU 的 复制 速度 要 快 很 多 。CPU 张 量 和 存储 开放 了 
个 pin memory() 方法 ， 它 返回 该 对 象 的 副本 ， 而 Medie Nd t. 


另外 ， 一 旦 国定 了 张 量 或 存储 ， 就 可 以 使 用 异步 的 GPU 副本 。 只 需 传递 一 个 额外 
的 async-True 参数 到 cuda() 的 调用 。 这 可 以 用 于 将 数据 传输 与 计算 重 王 。 


通过 将 pin_memory=True 传递 给 其 构造 函数 ， 可 以 使 DataLoader 将 batch 返 回 到 固定 内 存 中 。 


使 用 nn.DataParallel 替代 multiprocessing 


大 多 数 涉及 批量 输入 和 多 个 GPU 的 情况 应 默认 使 用 pataparallel 来 使 用 多 个 GPU 。 尽 管 有 
GIL 的 存在 ， 单 个 python 进 程 也 可 能 使 多 个 GPU 饱和 。 

从 0.1.9 版 本 开始 ， 大 量 的 GPU(8+) 可 能 未 被 充分 利用 。 然 而 ， 这 是 一 个 已 知 的 问题 ， 也 正在 
积极 开发 。 和 往常 一 样 ， 测 试 你 的 用 例 吧 。 

调用 multiprocessing 来 利用 CUDA 模 型 存在 重要 的 注意 事项 ; 使 用 具有 多 处 理 功能 的 CUDA 
模型 有 重要 的 注意 事项 ; 除非 就 是 需要 说 惯 地 满足 数据 处 理 需 求 ， 否 则 您 的 程序 很 可 能 会 出 现 
此 误 或 未 定义 的 行为 。 


扩展 PyTorch 


本 篇 文章 中 包含 如 何 扩展 torch.nn , torch.autograd 和 使 用 我 们 的 c x 编写 自 定 义 
的 c 扩展 。 


扩展 torch.autograd 


如 果 你 想 要 添加 一 个 新 的 operation 到 autograd 的 话 ， 你 的 operation 需要 继承 
class Function ° autograd 使 用 Function 计算 结果 和 梯度 ， 同 时 编码 operation 的 历史 。 
每 个 新 的 operation(function) 都 需要 实现 三 个 方法 : 


. init _ (optional) - 如 果 你 的 operation 包含 非 Variable 参数 ， 那么 就 将 其 作 
为 age 的 参数 传 入 到 operation 中 z 例如 * AddConstant Function 加 一 个 常 
数 ， Transpose Function 需要 指 定 哪 两 个 维度 需要 交换 。 ° 如果 你 的 operation 不 需要 额 外 


的 参数 ， 你 可 以 忽略 init ° 


PONE -在 里 面 写 执行 此 operation 的 代码 。 可 以 有 任意 数量 的 参数 。 如 果 你 对 某 些 
参数 指定 了 默认 值 ， 则 这 些 参数 是 可 传 可 不 传 的 。 记 住 : forward() 的 参数 只 能 

是 Variable 。 子 数 的 返回 值 既 可 以 是 variable 也 可 以 是 Variables 的 tuple 。 同 时 ， 
请 参考 Function [function] 的 doc ， 查 阅 有 哪些 方法 是 只 能 在 forward 中 调用 的 。 


backward() -梯度 计算 公式 。 参数 的 个 数 和 forward 返回 值 的 个 数 一 样 ， 每 个 参数 代表 
传 回 到 此 operation 的 梯度 backward() 的 返回 值 的 个 数 应 该 和 此 operation 输入 的 个 数 
一 样 ， 每 个 返回 值 对 应 了 输入 值 的 梯度 。 如 果 ERETIC 的 输入 不 需要 梯度 ， 或 者 不 可 
导 ， 你 可 以 返回 None 。 如 果 forward() 存在 可 选 参数 ， 你 可 以 返回 比 输入 更 多 的 梯度 

只 是 返回 的 是 None 。 


下 面 是 Linear 的 实现 代码 : 


# Inherit from Function 
class Linear(Function): 


# bias is an optional argument 
def forward(self, input, weight, bias-None): 
self.save for backward(input, weight, bias) 
output - input.mm(weight.t()) 
if bias is not None: 
output += bias.unsqueeze(0).expand as(output) 
return output 


# This function has only a single output, so it gets only one gradient 
def backward(self, grad output): 
# This is a pattern that is very convenient - at the top of backward 
4 unpack saved tensors and initialize all gradients w.r.t. inputs to 
4 None. Thanks to the fact that additional trailing Nones are 
# ignored, the return statement is simple even when the function has 
# optional inputs. 
input, weight, bias - self.saved tensors 
grad input - grad weight - grad bias - None 


# These needs input grad checks are optional and there only to 
# improve efficiency. If you want to make your code simpler, you can 
# skip them. Returning gradients for inputs that don't require it is 
# not an error. 
if self.needs input grad[9]: 
grad input - grad output.mm(weight) 
if self.needs input grad[i]: 
grad weight - grad output.t().mm(input) 
if bias is not None and self.needs input grad[2]: 
grad bias = grad output.sum(0).squeeze(0) 


return grad input, grad weight, grad bias 


现在 ， 为 了 可 以 更 简单 的 使 用 自 定 义 的 operation ， 我 们 建议 将 其 用 一 个 简单 的 
helper function 包装 起 来 。functions: 


def linear(input, weight, bias=None): 
# First braces create a Function object. Any arguments given here 
# will be passed to _ init . Second braces will invoke the call . 
# operator, that will then use forward() to compute the result and 
# return it. 
return Linear()(input, weight, bias) 


能 想 知 道 你 刚刚 实现 的 backward 方法 是 否 正确 的 计算 了 梯度 。 你 可 以 使 用 小 的 有 限 的 
差分 进行 数值 估计 。 


from torch.autograd Import gradcheck 


# gradchek takes a tuple of tensor as input, check if your gradient 
4 evaluated with these tensors are close enough to numerical 

# approximations and returns True if they all verify this condition. 
input = (Variable(torch.randn(20,20).double(), requires grad-True),) 
test = gradcheck.gradcheck(Linear(), input, eps-ie-6, atol-ie-4) 
print(test) 


扩展 torch.nn 


CD 


nn 包含 两 种 接口 - modules 和 他 们 的 functional 版 本 。 通 过 这 两 个 接口 ， 你 都 可 以 扩 

展 nn 。 但 是 我 们 建议 ， 在 扩展 layer 的 时 候 ， 使 用 modules ， 因 为 modules 保存 着 参数 
和 buffer 。 如 果 不 需要 参数 的 话 ， 那 么 建议 使 用 functional (激活 函数 ，pooling， 这 些 都 不 
需要 参数 )。 


增加 一 个 operation 的 functional 版 本 已 经 在 上 面 一 节 介 绍 完 毕 。 


增加 一 个 模块 ( module )。 由 于 nn 重度 使 用 autograd 。 所 以 ， 添 加 一 个 新 module 需要 实现 
一 个 用 来 执行 计算 和 计算 梯度 的 Function 。 从 现在 开始 ， 假 定 我 们 想 要 实现 一 

个 Linear module ， 记 得 之 前 我 们 已 经 实现 了 一 个 Linear Funciton 。 只 需要 很 少 的 代码 就 可 
以 完成 这 个 工作 。 现在 ， 我 们 需要 实现 两 个 方法 : 


e _ init (optional) -输入 参数 ， 例 如 kernel sizes , numbers of features , 等 等 。 同 
时 初始 化 parameters 和 buffers 。 


e forward() - 实例 化 一 个 执行 operation 的 Function ， 使 用 它 执行 operation ° 


和 functional wrapper( 上 面 实现 的 那个 简单 的 wrapper) 十 分 类 似 。 


Linear module 实现 代码 : 


class Linear(nn.Module): 
def ^X init (self, input features, output features, bias-True): 
self.input features - input features 
self.output features - output features 


nn.Parameter is a special kind of Variable, that will get 
automatically registered as Module's parameter once it's assigned 
as an attribute. Parameters and buffers need to be registered, or 
they won't appear in .parameters() (doesn't apply to buffers), and 
won't be converted when e.g. .cuda() is called. You can use 
.register buffer() to register buffers. 
nn.Parameters can never be volatile and, different than Variables, 
they require gradients by default. 
self.weight - nn.Parameter(torch.Tensor(input features, output features)) 
if bias: 

self.bias - nn.Parameter(torch.Tensor(output features)) 
else: 
# You should always register all possible parameters, but the 
# optional ones can be None if you want. 
self.register_parameter('bias', None) 


EHEHEHEH 





# Not a very smart way to initialize weights 

self.weight.data.uniform (-0.1, 0.1) 

if bias is not None: 
self.bias.data.uniform (-0.1, 0.1) 


def forward(self, input): 
4 See the autograd section for explanation of what happens here. 


return Linear()(input, self.weight, self.bias) 
# 注 意 这 个 Linear 是 之 前 实现 过 的 Linear 


编写 自 定义 C 扩展 


Coming soon. For now you can find an example at GitHub. 


扩展 PyTorch 
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乡 进程 最 佳 实践 


torch.multiprocessing x Python multiprocessing 的 蔡 代 品 9 它 支持 完全 相同 的 操作 ， 但 扩 
展 了 它 以 便 通 过 multiprocessing.Queue 发 送 的 所 有 张 量 将 其 数据 移动 到 共享 内 存 中 ， 并 且 只 
会 向 其 他 进程 发 送 一 个 句柄 。 

Note 


当 variable 发 送 到 另 一 个 进程 时 ， variable.data 和 variable.grad.data 都 将 被 共享 。 


这 允许 实现 各 种 训练 方法 ， 如 Hogwild，A3C 或 需要 异步 操作 的 任何 其 他 方法 。 


共享 CUDA 张 量 


仅 在 Python 3 中 使 用 spawn 或 forkserver 启动 方法 才 支 持 在 进程 之 间 共 享 CUDA 张 量 。 
Python 2 中 的 multiprocessing 只 能 使 用 fork 创建 子 进程 ， 并 且 不 被 CUDA 运 行 时 所 支持 。 


Warning 
CUDA API 要 求 导 出 到 其 他 进程 的 分 只 要 它们 被 使 用 就 要 一 直 保 持 有 效 。 您 应 该 小 


心 ， 确 保 您 共享 HCUDAR EA ERAI RR UR ILLA HS 参数 的 问 
题 ， 但 传递 其 他 类 型 的 数据 应 该 小 心 。 注 意 ， 此 限制 不 适用 于 共享 CPU 内 存 。 


参考 : 使 用 nn.DataParallel 替代 multiprocessing 


了 最 佳 实践 和 提示 
避免 和 抵制 死 锁 


当 一 个 新 进程 被 产生 时 ， 有 很 多 事情 可 能 会 出 错 ， 最 常见 的 死 锁 原因 是 后 台 线 程 。 如 果 有 任 

何 线程 持 有 锁 或 导入 模块 ， 并 且 fork 被 调用 ， 则 子 进程 很 可 能 处 于 损坏 的 状态 ， 并 以 不 同 的 
方式 死 锁 或 失败 。 注 意 ， 即 使 您 没有 ，Python 内 置 可 能 会 这 样 

比 multiprocessing 更 远 。 multiprocessing.Queue 实际 上 是 一 个 非常 复杂 的 类 ， 它 产生 用 于 

序列 化 ， 发 送 和 接收 对 象 的 多 个 线程 ， 它 们 也 可 能 引起 上 述 问 题 。 如 果 您 发 现 自己 处 于 这 种 

这 不 会 使 用 任何 其 他 线程 。 











情 况 ， 请 尝试 使 用 multiprocessing.queues.SimpleQueue ， 


我 们 正在 竭尽 全 力 把 它 设计 得 更 简单 ， 并 确保 这 些 死 锁 不 会 发 生 ， 但 有 些 事 情 无 法 控制 。 如 
果 有 任何 问题 您 无 法 一 时 无 法 解决 ， 请 尝试 在 论坛 上 提出 ， 我 们 将 看 看 是 否 可 以 解决 问题 。 


重用 经 过 队列 的 缓冲 区 


记 住 每 次 将 Tensor XX multiprocessing.Queue 时 ， 必须 将 其 移动 到 共享 内 存 中 。 如 果 它 已 经 
被 共享 ， 它 是 一 个 无 效 的 操作 ， 否 则 会 产 M dcs ， 这 会 减缓 整个 进程 。 即 使 
你 有 一 个 进程 池 来 发 送 数据 到 一 个 进程 ， 使 它 返 这 几乎 是 免费 的 ， 并 且 人 允许 你 
在 发 送 下 一 个 batch 时 避免 产生 副本 。 





异步 多 进程 训练 〈 例 如 Hogwild ) 


使 用 torch.multiprocessing ， 可 以 异步 地 训练 模型 ， 参 数 可 以 一 直 共 享 ， 也 可 以 定期 同步 
在 第 一 种 情况 下 ， 我 们 建议 发 送 整个 模型 对 象 ， 而 在 后 者 中 ， 我 们 建议 只 发 


iÉ state dict() 。 


我 们 建议 使 用 multiprocessing.Queue 来 在 进程 之 间 传 递 各 种 PyTorch 对 象 。 例 如 ， 当 使 用 fork 
局 动 方法 时 ， 可 能 会 继承 共享 内 存 中 的 张 量 和 存储 器 ， 但 这 是 非常 容易 出 错 的 ， 应 说 惯 使 
用 ， 而 且 只 能 由 高 级 用 户 使 用 。 队 列 虽 然 有 时 是 一 个 较 不 优雅 的 解决 方案 ， 但 基本 上 能 在 所 

有 情况 下 正常 工作 。 


Warning 你 应 该 注 io d ， 它 们 没有 被 if name == ' main ' 保护 。 如 果 
使 用 与 fork mm 启动 方法 ， 则 它们 将 在 所 有 子 进程 中 执行 





Hogwild 


在 examples repository 中 可 以 找到 具体 的 Hogwild 实 现 ， 可 以 展示 代码 的 整体 结构 。 下 面 也 有 
一 个 小 例子 : 


import torch.multiprocessing as mp 
from model import MyModel 


def train(model): 
& Construct data loader, optimizer, etc. 
for data, labels in data loader: 
optimizer.zero grad() 
loss fn(model(data), labels).backward() 
optimizer.step() # This will update the shared parameters 


if name -- ' main ': 
num processes - 4 
model - MyModel() 
# NOTE: this is required for the ``fork`` method to work 
model.share memory() 
processes - [] 
for rank in range(num processes): 
p = mp.Process(target-train, args-(model,)) 
p.start() 
processes.append(p) 
for p in processes: 
p.join() 





友 列 化 语义 


最 佳 实践 


保存 模型 的 推荐 方法 
这 主要 有 两 种 方法 序列 化 和 恢复 模型 。 


第 一 种 (推荐) 只 保存 和 加 载 模型 参数 : 
torch.save(the model.state dict(), PATH) 
然后 : 


the model = TheModelClass(*args, **kwargs) 
the model.load state dict(torch.load(PATH)) 


第 二 种 保存 和 加 载 整个 模型 : 
torch.save(the model, PATH) 
然后 : 


the model = torch.load(PATH) 


然而 ， 在 这 种 情况 下 ， 序 列 化 的 数据 被 绑 定 到 特定 的 类 和 固定 的 目录 结构 ， 所 以 当 在 其 他 项 
目 中 使 用 时 ， 或 者 在 一 些 严重 的 重 构 器 之 后 它 可 能 会 以 各 种 方式 break 。 


torch 


E torch 包含 了 多 维 张 量 的 数据 结构 以 及 基于 其 上 的 多 种 数学 操作 。 另 外 ， 它 也 提供 了 多 种 
工具 ， 其 中 一 些 可 以 更 有 效 地 对 张 量 和 任意 类 型 进行 序列 化 。 


它 有 CUDA 的 对 应 实现 ， 可 以 在 NVIDIA GPU 上 进行 张 量 运算 (计算 能 力 >=2.0) 。 


张 重 Tensors 


torch.is_ tensor[lsourcel] 
torch.is tensor(obj) 


t Jk obj 是 一 个 pytorch 张 量 ， 则 返回 True 


e 参数 : obj (Object) — 判断 对 象 


torch.is storage [source] 
torch.is storage(obj) 


如 何 obj 是 一 个 pytorch storage & > 3x mI True 


。 参数 : input (Object) -判断 对 象 


torch.set default tensor typelsource|] 


torch.set default tensor type(t) 


torch.numel 
torch.numel(input)-»int 
返回 input 张 量 中 的 元 素 个 数 


e 4X: input (Tensor) — 输入 张 量 


例子 : 


>>> a = torch.randn(1,2,3,4,5) 
>>> torch.numel(a) 

120 

>>> a = torch.zeros(4,4) 

>>> torch.numel(a) 

16 


torch.set printoptions|[source] 


torch.set printoptions(precision-zNone, threshold-None, edgeitems-None, linewidthzNone, 
profilezNone) 


设置 打印 选项 。 完全 参考 自 Numpy。 
参数 : 
e precision — 浮 点 数 输出 的 精度 位 数 (默认 为 8 ) 
e threshold — 冰 值 ， 触 发 汇总 显示 而 不 是 完全 显示 (repn) 的 数组 元 素 的 总 数 (默认 为 
1000) 
e edgeitems 一 汇总 显示 中 ， 每 维 ( 轴 ) 两 端 显示 的 项 数 (默认 值 为 3 ) 
e linewidth — 用 于 播 入 行 间 隔 的 每 行 字符 数 (默认 为 80) 。Thresholded matricies will 
ignore this parameter. 
e profile — pretty 打 印 的 完全 默认 值 。 可 以 履 盖 上 述 所 有 选项 (默认 为 short, full) 


创建 操作 Creation Ops 
torch.eye 


torch.eye(n, mzNone, outzNone) 


返回 一 个 2 维 张 量 ， 对 角 线 位 置 全 1， 其 它 位 置 全 0 
参数 : 


e nl(int ) 一 行 数 
e m (int, optional) — 列 数 .如 果 为 None, 则 默认 为 n 
e out (Tensor, optinal) - Output tensor 


返回 值 : 对 角 线 位 置 全 1， 其 它 位置 全 0 的 2 维 张 量 


例子 : 


>>> torch.eye(3) 
TROTO 


[torch.FloatTensor of size 3x3] 


from_numpy 


torch.from numpy(ndarray) — Tensor 


Numpy 桥 ， 将 numpy.ndarray 转换 为 pytorch 的 Tensor ° 返回 的 张 量 tensor 和 numpy 的 
ndarray 共 享 同 一 内 存 空 间 。 修 改 一 个 会 导致 另外 一 个 也 被 修改 。 返 回 的 张 量 不 能 改变 大 小 。 


例子 : 
>>> a = numpy.array([1, 2, 3]) 
>>> t = torch.from numpy(a) 
>>> t 


torch.LongTensor([1, 2, 3]) 
22» t[0] = 

>>> a 

array([-1, 2, 3]) 


torch.linspace 


torch.linspace(start, end, steps-100, out-None) > Tensor 


返回 一 个 1 维 张 量 ， 包 含 在 区 间 start. 和 end 上 均匀 间隔 的 steps 个 点 。 输出 1 维 张 量 的 长 
度 为 steps ° 


e start (float) 一 序列 的 起 始点 

e end (float) 一 序列 的 最 终 值 

e steps (int) 一 在 start 和 end 间 生 成 的 样本 数 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> torch.linspace(3, 10, steps-5) 


3.0000 
4.7500 
6.5000 
8.2500 
10.0000 
[torch.FloatTensor of size 5] 


>>> torch.linspace(-10, 10, steps-5) 


-10 
:5 
0 
5 
10 
[torch.FloatTensor of size 5] 


>>> torch.linspace(start--10, end=10, steps-5) 
zuo) 

sm 

0 

5 


10 
[torch.FloatTensor of size 5] 


torch.logspace 


torch.logspace(start, end, steps-100, out-None) > Tensor 


返回 一 个 1 维 张 量 ， 包 含 在 区 间 \(10^{start}\) 和 ( 10^{end} \) 上 以 对 数 刻度 均匀 间隔 
的 steps 个 点 。 输出 1 维 张 量 的 长 度 为 steps ? 


参数 : 


start (float) — 序列 的 起 始点 

end (float) 一 序列 的 最 终 值 

steps (int) 一 在 start 和 end 间 生 成 的 样本 数 
out (Tensor, optional) — 结果 张 量 


例子 : 


>>> torch.logspace(start--10, end-10, steps-5) 
1.0000e-10 

1.0000e-05 

1.0000e-00 

1.0000e-05 

1.0000e-710 

[torch.FloatTensor of size 5] 

>>> torch.logspace(start-0.1, end-1.0, steps-5) 
172589 
2:1135 
3.5481 
5,0566 


10.0000 
[torch.FloatTensor of size 5] 


torch.ones 


torch.ones(*sizes, out-None) > Tensor 


返回 一 个 全 为 1 的 张 量 ， 形 状 由 可 变 参 数 sizes 定义 。 
参数 : 


e sizes (int...) 一 整数 序列 ， 定 义 了 输出 形状 
e out (Tensor, optional) — 结果 张 量 例子 :python 


torch.ones(2, 3) 
11111 1 [torch.FloatTensor of size 2x3] 
torch.ones(5) 


111 1 1 [torch.FloatTensor of size 5] 


EEk 


**  torch.rand** 
"python 
torch.rand(*sizes, out=None) > Tensor 


返回 一 个 张 量 ， 包 含 了 从 区 间 [0,1) 的 均匀 分 布 中 抽取 的 一 组 随机 数 ， 形 状 由 可 变 参 数 sizes 


参数 : 


e sizes (int...) 一 整数 序列 ， 定 义 了 输出 形状 
e out (Tensor, optinal) - 结果 张 量 例子 : "" python 


torch.rand(4) 


0.9193 0.3347 0.3232 0.7715 [torch.FloatTensor of size 4] 
torch.rand(2, 3) 


0.5010 0.5140 0.0719 0.1435 0.5636 0.0538 [torch.FloatTensor of size 2x3] 


类 类 类 


** torch.randn** 
`` python 
torch.randn(*sizes, out=None) > Tensor 


返回 一 个 张 量 ， 包 含 了 从 标准 正 态 分 布 (均值 为 0， 方 差 为 1， 即 高 斯 白 噪声 ) 中 抽取 一 组 随机 
数 ， 形 状 由 可 变 参 数 sizes 定义 。 参数 : 


e sizes (int...) 一 整数 序列 ， 定 义 了 输出 形状 
e out (Tensor, optinal) - 结果 张 量 


例子 : : 


>>> torch.randn(4) 

-0.1145 

0.0094 

seres rf Bra 

0.9846 

[torch.FloatTensor of size 4] 
>>> torch.randn(2, 3) 

1.4339 40.3354 -1.0999 


1.5458 -0.9643 -0.3558 
[torch.FloatTensor of size 2x3] 


torch.randperm 


torch.randperm(n, outzNone) > LongTensor 


给 定 参数 n ， 返 回 一 个 从 o 到 n -1 的 随机 整数 排列 。 


e n (int) - 上 边界 (不 包含 ) 


例子 : 


>>> torch.randperm(4) 


rt OOo HN 


[ 


orch.LongTensor of size 4] 


torch.arange 


torch.arange(start, end, step-i, out=None) > Tensor 


返回 一 个 1 维 张 量 ， 长 度 为 floor((end-start)/step) \)。 包 含 从 start 到 end * X4 step 为 步 
长 的 一 组 序列 值 (默认 步 长 为 1)。 


参数 : 


e start (float) 一 序列 的 起 始点 

e end (float) 一 序列 的 终止 点 

e step (float) 一 相 令 点 的 间隔 大 小 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> torch.arange(1, 4) 


rt (CON H 


[ 


>>> torch.arange(i, 2.5, 0.5) 


orch.FloatTensor of size 3] 


1.0000 
1.5000 
2.0000 
[torch.FloatTensor of size 3] 


torch.range 


torch.range(start, end, step-i, out=None) > Tensor 


返回 一 个 1 维 张 量 ， 有 W floor((end-start)/step)*1 \) 个 元 素 。 包 含 在 半 开 区 
间 [start, end) 从 start 开始 ， 以 step 为 步 长 的 一 组 值 。 step 是 两 个 值 之 间 的 间隔 ， 即 
\( x (i*1)7x i*step V) 


警告 : 建议 使 用 函数 torch.arange() 


e start (float) 一 序列 的 起 始点 

e end (float) 一 序列 的 最 终 值 

e step (int) 一 相 邻 点 的 间隔 大 小 

e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> torch.range(i, 4) 


ab 
2 
3 
4 
t 


[torch.FloatTensor of size 4] 


>>> torch.range(1, 4, 0.5) 


T 
al 
2 
2 
3 
3 
4 
t 


.0000 
.5000 
.0000 


5000 


.0000 
.5000 
.0000 


[torch.FloatTensor of size 7] 


torch.zeros 


torch.zeros(*sizes, out-None) > Tensor 


参数 : 


返回 一 个 全 


为 标量 0 的 张 量 ， 形 状 由 可 变 参 数 sizes 


e sizes (int...) 一 整数 序列 ， 定 义 了 输出 形状 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> torch.zeros(2, 3) 


OO 
Qu 
[torch.FloatTensor of size 2x3] 


>>> torch.zeros(5) 
0 
0 
0 
0 
0 
t 


[torch.FloatTensor of size 5] 


索引 ,切片 ,连接 , 换 位 Indexing, Slicing, Joining, 
Mutating Ops 


torch.cat 


torch.cat(inputs, dimension=0) > Tensor 


在 给 定 维 度 上 对 输入 的 张 量 序列 seq 进行 连接 操作 。 


torch.cat() 可 以 看 做 torch.split() 和 torch.chunk() 的 反 操 作 。 cat() 函数 可 以 通过 下 
面 例子 更 好 的 理解 。 


参数 : 


e inputs (sequence of Tensors) — 可 以 是 任意 相同 Tensor 类 型 的 python 序列 
e dimension (int, optional) — 沿 着 此 维 连 接 张 量 序列 。 


例子 : python 
x = torch.randn(2, 3) x 
0.5983 -0.0341 2.4918 1.5981 -0.5265 -0.8735 [torch.FloatTensor of size 2x3] 
torch.cat((x, x, x), 0) 
0.5983 -0.0341 2.4918 1.5981 -0.5265 -0.8735 0.5983 -0.0341 2.4918 1.5981 -0.5265 
-0.8735 0.5983 -0.0341 2.4918 1.5981 -0.5265 -0.8735 [torch.FloatTensor of size 6x3] 
torch.cat((x, x, x), 1) 


0.5983 -0.0341 2.4918 0.5983 -0.0341 2.4918 0.5983 -0.0341 2.4918 1.5981 -0.5265 
-0.8735 1.5981 -0.5265 -0.8735 1.5981 -0.5265 -0.8735 [torch.FloatTensor of size 2x9] 


### torch.chunk 
`` python 
torch.chunk(tensor, chunks, dim=0) 


在 给 定 维度 ( 轴 ) 上 将 输入 张 量 进行 分 块 儿 。 


e tensor (Tensor) — 待 分 块 的 输入 张 量 
e chunks (nD 分 块 的 个 数 
e dim (int) — 沿 着 此 维度 进行 分 块 


torch.gather 


torch.gather(input, dim, index, outzNone) > Tensor 


沿 给 定 轴 dim ， 将 输入 索引 张 量 index 指定 位 置 的 值 进行 聚合 。 


对 一 个 3 维 张 量 ， 输 出 可 以 定义 为 : 


out[i][j][k] 
out[i] [j] [k] 
out[i] [j] [k] 


tensor[index[i][j][k]][j][k] # dim=0 
tensor[i][index[i][j][k]][k] # dim=1 
tensor[i][j][index[i][j][k]] # dim=3 


例子 : 


>>> t = torch.Tensor([[1,2],[3,4]]) 

>>> torch.gather(t, 1, torch.LongTensor([[9,9], [1,90]])) 
2 1 

4 3 

[torch.FloatTensor of size 2x2] 


A: 


e input (Tensor) — 7$ 5k È 

e dim (int) — 索引 的 轴 

e index (LongTensor) 一 聚合 元 素 的 下 标 
e out (Tensor, optional) 一 目标 张 量 


torch.index select 


torch.index select(input, dim, index, out-None) > Tensor 


沿 着 指定 维度 对 输入 进行 切片 ， 取 index 中 指定 的 相应 项 ( index 为 一 个 LongTensor)， 然 后 
返回 到 一 个 新 的 张 量 ， 返 回 的 张 量 与 原始 张 量 Tensor 有 相同 的 维度 (在 指定 轴 上 ) 。 


注意 : 返回 的 张 量 不 与 原始 张 量 共享 内 存 空 间 。 
参数 : 


e input (Tensor) — 输入 张 量 

e dim (int) — 索引 的 轴 

e index (LongTensor) 一 包含 索引 下 标的 一 维 张 量 
e out (Tensor, optional) 一 目标 张 量 


例子 : 


>>> x = torch.randn(3, 4) 
»» Xx 


1.2045 2.4084 20.4001 1.1372 
0:5596 1.567/7 076219 -0.7954 
1.3635 -1.2313 -0.5414 -1.8478 
[torch.FloatTensor of size 3x4] 


>>> indices = torch.LongTensor([0, 2]) 
>>> torch.index_select(x, 0, indices) 


1.2045 2.4084 0.4001 1.1372 
1.3635 -1:2313 -0.5414 -1:8478 
[torch.FloatTensor of size 2x4] 
>>> torch.index_select(x, 1, indices) 
1.2045 0.4001 
075596 076219 


1.3635 -0.5414 
[torch.FloatTensor of size 3x2] 


torch.masked_select 


torch.masked_select(input, mask, out=None) > Tensor 


根据 掩 码 张 量 mask 中 的 二 元 值 ， 取 输入 张 量 中 的 指定 项 ( mask 为 一 个 ByteTensor)， 将 取 值 
返回 到 一 个 新 的 1D 张 量 ， 


张 量 mask 须 跟 input 张 量 有 相同 数量 的 元 素数 目 ， 但 形状 或 维度 不 需要 相同 。 注意: 返回 
的 张 量 不 与 原始 张 量 共 享 内 存 空 间 。 
参数 : 

e input (Tensor) — 输入 张 量 


e mask (ByteTensor) — 掩 码 张 量 ， 包 含 了 二 元 索引 值 
e out (Tensor, optional) 一 目标 张 量 


例子 : 


>>> x = torch.randn(3, 4) 
>>> X 


1.2045 2.4084 0.4001 1.1372 
0:5596 F1 567/7 0762191: Di 7954 
1.3635 -1.2313 -0.5414 -1.8478 
[torch.FloatTensor of size 3x4] 


>>> indices = torch.LongTensor([0, 2]) 
>>> torch.index_select(x, 0, indices) 


1.2045 2.4084 0.4001 1.1372 
1.3635 -1.2313 -0.5414 -1.8478 
[torch.FloatTensor of size 2x4] 
>>> torch.index_select(x, 1, indices) 
1.2045 0.4001 

025596 1016219 


1.3635 -0.5414 
[torch.FloatTensor of size 3x2] 


torch.nonzero 


torch.nonzero(input, out=None) > LongTensor 
返回 一 个 包含 输入 input 中 非 零 元 素 索 引 的 张 量 。 输 出 张 量 中 的 每 行 包含 输入 中 非 零 元 素 的 
索引 。 


如 果 输 入 input 有 n 维 ， 则 输出 的 索引 张 量 output 的 形状 为 ZX n, 这 里 Z 是 输入 张 
X input 中 所 有 非 零 元 素 的 个 数 x 


参数 : 


e input (Tensor) — 源 张 量 
e out (LongTensor, optional) 一 包含 索引 值 的 结果 张 量 


例子 : 


>>> torch.nonzero(torch.Tensor([1, 1, 1, 0, 1])) 


0 

1 

2 

4 

[torch.LongTensor of size 4x1] 

>>> torch.nonzero(torch.Tensor([[90.6, 90.0, 0.0, 0.0], 

. [0.0, 0.4, 0.0, 0.0], 
[0.0, 0.0, 1.2, 0.0], 
[0.0, 0.0, 0.0,-0.4]1)) 


OOPO 


0 
ál 
2 
3 
t 


[torch.LongTensor of size 4x2] 


torch.split 


torch.split(tensor, split_size, dim=0) 
将 输入 张 量 分 割 成 相等 形状 的 chunks (如 果 可 分 ) 9 如 果 沿 指定 维 的 张 量 形状 大 小 不 能 
被 split size 整 分 m 最 后 一 个 分 块 会 小 于 其 它 分 块 9 
参数 : 


e tensor (Tensor) - 待 分 割 张 量 
e split size (int) - uncus 的 形状 大 小 
e dim (int) — 沿 着 此 维 进 行 分 害 


torch.squeeze 


torch.squeeze(input, dim=None, out=None) 
将 输入 张 量 形状 中 的 1 去 除 并 返回 。 如 果 输 入 是 形 如 \((A Mimes 1\times B \times 1 Ximes C 
\times 1 \times D) Y) > 那么 输出 形状 就 为 : \((A Mimes B \times C \times D) \) 


当 给 定 dim 时 ， 那 么 挤 压 操作 只 在 给 定 维度 上 。 例 如 ， 输 入 形状 为 : ((A \times 1 \times B) V), 
squeeze(input, 0) 将 会 保持 张 量 不 变 ? 只 有 用 squeeze(input, 1) ? 形状 会 变 成 \( (A Mimes 
Byo* 


注意 : 返回 张 量 与 输入 张 量 共享 内 存 ， 所 以 改变 其 中 一 个 的 内 容 会 改变 另 一 个 。 
参数 : 


e input abc A eR 
e dim (int, optional) — 如 果 给 定 ， 则 input 只 会 在 给 度 挤 压 


e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> x = torch.zeros(2,1,2,1,2) 
>>> x.size() 

KA I A ETE TW 

>>> y = torch.squeeze(x) 
>>> y.size() 

(Xs eX IL) 

>>> y = torch.squeeze(x, 9) 
>>> y.size() 

C DET A 

>>> y = torch.squeeze(x, 1) 
>>> y.size() 

(OUPEOU EI PIE) 


torch.stack[source] 


torch.stack(sequence, dim=0) 


沿 着 一 个 新 维度 对 输入 张 量 序列 进行 连接 。 序列 中 所 有 的 张 量 都 应 该 为 相同 形状 。 
参数 : 


e sqequence (Sequence) — 待 连接 的 张 量 序列 
e dim (int) 一 插入 的 维度 。 必 须 介 于 0 与 待 连接 的 张 量 序列 数 之 间 。 


torch.t 


torch.t(input, out-zNone) > Tensor 


输入 一 个 矩阵 (2 维 张 量 ) ， 并 转 置 0, 1 维 。 TARIA EC transpose(input, o, 1) 的 简写 
函数 。 


A: 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) — 结果 张 量 python 


x 7 torch.randn(2, 3) x 
0.4834 0.6907 1.3417 -0.1300 0.5295 0.2321 [torch.FloatTensor of size 2x3] 
torch.t(x) 


0.4834 -0.1300 0.6907 0.5295 1.3417 0.2321 [torch.FloatTensor of size 3x2] 


### torch.transpose 
"python 
torch.transpose(input, dim0O, dimi, outzNone) > Tensor 


返回 和 输入 和 矩阵 input 的 转 置 。 交 换 维 度 dimo 和 dimi ^ 输出 张 量 与 输入 张 量 共 享 内 存 ， 所 以 
改变 其 中 一 个 会 导致 另外 一 个 也 被 修改 。 
参数 : 


e input (Tensor) 一 输入 张 量 
e dim0 (int) 一 转 置 的 第 一 维 
e dim1 (int) 一 转 置 的 第 二 维 


>>> x = torch.randn(2, 3) 
»»» X 


0.5983 -0.0341 2.4918 
1: 5981-015265 -078735 
[torch.FloatTensor of size 2x3] 


>>> torch.transpose(x, 0, 1) 


9559831175991 
-0.0341 -0.5265 
2.4918 -0.8735 
[torch.FloatTensor of size 3x2] 


torch.unbind 


torch.unbind(tensor, dim-o)[source] 


移 除 指定 维 后 ， 返 回 一 个 元 组 ， 包 含 了 沿 着 指定 维 切 片 后 的 各 个 切片 
参数 : 
e tensor (Tensor) 一 输入 张 量 


e dim (int) 一 删除 的 维度 


torch.unsqueeze 
torch.unsqueeze(input, dim, out=None) 
返回 一 个 新 的 张 量 ， 对 输入 的 制定 位 置 插入 维度 1 


注意 : 返回 张 量 与 输入 张 量 共享 内 存 ， 所 以 改变 其 中 一 个 的 内 容 会 改变 另 一 个 。 


如 果 dim 为 负 ， 则 将 会 被 转化 \ dim*input.dim()*1 V) 


参数 : 


e tensor (Tensor) — 输入 张 量 
e dim (int) — 插入 维度 的 索引 
e out (Tensor, optional) — 结果 张 量 


>>> x = torch.Tensor([1, 2, 3, 4]) 
>>> torch.unsqueeze(x, 9) 

du 2 TES 

[torch.FloatTensor of size 1x4] 
>>> torch.unsqueeze(x, 1) 

al 

2 

3 


[torch.FloatTensor of size 4x1] 


随机 抽样 Random sampling 


torch.manual seed 


torch.manual seed(seed) 


设 定 生成 随机 数 的 种 子 ， 并 返回 一 个 torch. C.Generator *1 &. 


参数 : seed (int or long) - 种 子 . 


torch.initial seed 


torch.initial seed() 
返回 生成 随机 数 的 原始 种 子 值 (python long) ° 


torch.get rng state 


torch.get rng state()[source] 
返回 随机 生成 器 状态 (ByteTensom 
torch.set rng state 


torch.set rng state(new state)[source] 


设 定 随机 生成 器 状态 参数 : new_state (torch.ByteTensor) — 期 望 的 状态 


torch.default generator 


torch.default generator = «torch. C.Generator object> 


torch.bernoulli 


torch.bernoulli(input, outzNone) > Tensor 


从 伯 努 利 分 布 中 抽取 二 元 随机 数 (0 或 者 1) 9 


输入 张 量 须 包 含 用 于 抽取 上 述 二 元 随机 值 的 概率 。 因 此， 输入 中 的 所 有 值 都 必须 在 【0,1] 区 
间 ， 即  O«-input i«-1) 


输出 张 量 的 第 i 个 元 素 值 ， 将 会 以 输入 张 量 的 第 i 个 概率 值 等 于 1。 
返回 值 将 会 是 与 输入 相同 大 小 的 张 量 ， 每 个 值 为 0 或 者 1 参数 : 


e input (Tensor) — 输入 为 伯 努 利 分 布 的 概率 值 
e out (Tensor, optional) — 输出 张 量 (可 选 ) 


例子 : 


>>> a = torch.Tensor(3, 3).uniform (0, 1) # generate a uniform random matrix with rang 
e [0, 1] 
>>> a 


0.7544 0.8140 0.9842 
0.5282 0.0595 20.6445 
0: 1925 T 019553 079732 
[torch.FloatTensor of size 3x3] 


>>> torch.bernoulli(a) 


abcr al 
9 0 
9 1 
torc 


TE 


[torch. 


>>> a = torch.ones(3, 3) # probability of drawing "1" is 1 
>>> torch.bernoulli(a) 


or loatTensor of size 3x3] 


T 
zd ub 
ES 
[torch. 


>>> a = torch.zeros(3, 3) # probability of drawing "1" is 0 
>>> torch.bernoulli(a) 


or loatTensor of size 3x3] 


9 0 
9 0 
9 0 
torc 


T"nmooo 


orch. 


[ 


loatTensor of size 3x3] 


torch.multinomial 


torch.multinomial(input, num_samples,replacement=False, out=None) > LongTensor 


返回 一 个 张 量 ， 每 行 包 含 从 input 相应 行 中 定义 的 多 项 分 布 中 抽取 的 num_samples 个 样本 。 
[注意 ]: 输 入 input 每 行 的 值 不 需要 总 和 为 1 (这 里 我 们 用 来 做 权重 )， 但 是 必须 非 负 且 总 和 不 能 
为 0。 

当 抽 取样 本 时 ， 依 次 从 左 到 右 排 列 ( 第 一 个 样本 对 应 第 一 列 )。 


如 果 输 入 inut 是 一 个 向 量 ， 输 出 out 也 是 一 个 相同 长 度 num samples 的 向 量 。 如 果 输 
入 input ZA Wm VAT 8 4E > 48 B1 out 是 形 如 \( m \times n\) 的 矩阵 。 


如 果 参 数 replacement 为 True, 则 样本 抽取 可 以 重复 。 否 则 ， 一 个 样本 在 每 行 不 能 被 重复 抽 
取 。 
参数 num_samples 必须 小 于 Input 长 度 ( 即 ” input 的 列 数 ， 如 果 是 input 是 一 个 和 矩阵) 9 
参数 : 

e input (Tensor) 一 包含 概率 值 的 张 量 

e num samples (int) — 抽取 的 样本 数 


e replacement (bool, optional) 一 布尔 值 ， 决 定 是 否 能 重复 抽取 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> weights = torch.Tensor([0, 10, 3, 0]) # create a Tensor of weights 
>>> torch.multinomial(weights, 4) 


1 
2 
0 
0 
[torch.LongTensor of size 4] 


>>> torch.multinomial(weights, 4, replacement-True) 


TOPOPp 


[ 


orch.LongTensor of size 4] 


torch.normal() 


torch.normal(means, std, outzNone) 


返 回 一 个 张 量 ? 包含 从 给 合 定 参数 means , std 的 ARES AE S 均值 means 是 
一 个 张 量 ， 包 含 每 个 输出 元 素 相 关 的 正 态 分 布 的 均值 。 std 是 一 个 张 量 ， 包 含 每 个 输出 元 素 
相关 的 正 态 分 布 的 标准 差 。 均 值 和 标准 差 的 形状 不 须 匹 配 ， 但 每 an 


参数 : 


e means (Tensor) 一 均值 
e std (Tensor) - z ins 
e out (Tensor) 一 可 选 的 输出 张 量 


torch.normal(means=torch.arange(1, 11), std=torch.arange(1, ©, -0.1)) 


1.5104 
1.6955 
2.4895 
4.9185 
4.9895 
6:9155 
23683 
8.1836 
8.7164 
9.8916 
[torch.FloatTensor of size 10] 


torch.normal(mean=0.0, std, out=None) 


与 上 面 函 数 类 似 ， 所 有 抽取 的 样本 共享 均值 。 
参数 : 


e means (Tensor,optional) — 所 有 分 布 均值 
e std (Tensor) — o 准 差 
e out (Tensor) — 可 选 的 输出 张 量 


例子 : 


>>> torch.normal(mean=0.5, std=torch.arange(1, 6)) 


9:5723 
0.0871 
20.3783 
:2:5689 
40:893 
[torch.FloatTensor of size 5] 


torch.normal(means, std=1.0, out-None) 


与 上 面 函 数 类 似 ， 所 有 抽取 的 样本 共享 标准 差 。 
参数 : 


e means (Tensor) 一 每 个 元 素 的 均值 
e std (float, optional) 一 所 有 分 布 的 标准 差 
e out (Tensor) — 可 选 的 输出 张 量 


例子 : 


>>> torch.normal(means-torch.arange(i, 6)) 
1.1681 
2.8884 
38 
275616 
4.2500 
[torch.FloatTensor of size 5] 


序列 化 Serialization 


torch.saves[source] 


torch.save(obj, f, pickle module-«module 'pickle' from '/home/jenkins/miniconda/lib/py 
thon3.5/pickle.py'», pickle protocol-2) 


保存 一 个 对 象 到 一 个 硬盘 文件 上 参考 : Recommended approach for saving a model 参数 : 


e obj 一 保存 对 象 

e f — 类 文件 对 象 (返回 文件 描述 符 ) 或 一 个 保存 文件 名 的 字符 串 
e pickle module — 用 于 pickling 元 数据 和 对 象 的 模块 

e pickle protocol 一 指定 pickle protocal 可 以 覆盖 默认 参数 


torch.load[source] 


torch.load(f, map locationzNone, pickle module-«module 'pickle' from '/home/jenkins/mi 
niconda/lib/python3.5/pickle.py'») 


从 磁盘 文件 中 读 取 一 个 通过 torch.save() 保存 的 对 象 。 torch.load() 可 通过 参 

数 map location 动态 地 进行 内 存 重 映射 ， 使 其 能 从 不 动 设 备 中 读 取 文件 。 一 般 调 用 时 ， 需 两 
个 参数 : storage 和 location tag. 返回 不 同 地 址 中 的 storage， 或 着 返回 None (此 时 地 址 可 以 通 
过 默认 方法 进行 解析 ). 如 果 这 个 参数 是 字典 的 话 ， 意 味 着 其 是 从 文件 的 地 址 标记 到 当前 系统 的 
地 址 标记 的 上 映射。 默认 情况 下 ，location tags 中 "cpu" 对 应 host tensors > ‘cuda:device_id’ 
(e.g. 'cuda:2") 对 应 cuda tensors。 用 户 可 以 通过 register_ package 进 行 扩展 ， 使 用 自己 定义 
的 标记 和 反 序 列 化 方法 。 


参数 : 


ef 一 类 文件 对 象 (返回 文件 描述 符 ) 或 一 个 保存 文件 名 的 字符 串 

e map location 一 一 个 函数 或 字典 规定 如 何 remap 疮 储 位置 

e pickle module — 用 于 unpickling 元 数据 和 对 象 的 模块 (必须 匹配 序列 化 文件 时 的 
pickle_module ) 


例子 : 


>>> onch: Tra Tenors: od m 


>>> torch. load(' tensors. pt, ap -location- lambda storage, loc: storage) 
> from € 
>>> poco 1oad(' tensors. pti, "en bocas Tcudas:d: cuda 0i) 


并 行 化 Parallelism 


torch.get num threads 


torch.get num threads() > int 


获得 用 于 并 行 化 CPU 操作 的 OpenMP 线 程 数 


torch.set num threads 


torch.set num threads(int) 


设 定 用 于 并 行 化 CPU 操作 的 OpenMP 线 程 数 
数学 操作 Math operations 


Pointwise Ops 


torch.abs 


torch.abs(input, outzNone) > Tensor 


计算 输入 张 量 的 每 个 元 素 绝对 值 


例子 : 


>>> torch.abs(torch.FloatTensor([-1, -2, 3])) 
FloatTensor([41, 2, 3]) 


torch.acos(input, outzNone) — Tensor 


torch.acos(input, outzNone) > Tensor 


返回 一 个 新 张 量 ， 包 含 输入 张 量 每 个 元 素 的 反 余弦 。 参 数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


-0.6366 
0.2718 
0.4469 
1.3122 
[torch.FloatTensor of size 4] 
>>> torch.acos(a) 
2.2608 
172956 
IOVS 
nan 
[torch.FloatTensor of size 4] 


torch.add() 


torch.add(input, value, out=None) 


对 输入 张 量 inut 逐 元 素 加 上 标量 值 value ， 并 返回 结果 到 一 个 新 的 张 量 out > PP \ out = 
tensor + value \) ° 


如 果 输 入 input 是 FloatTensor or DoubleTensor 类 型 ， 则 value 必须 为 实数 ， 否 则 须 为 整 
数 。【 译 注 : 似乎 并 非 如 此 ， 无 关 输 入 类 型 ， value RER ERETT o] 


e input (Tensor) — 输入 张 量 
e value (Number) — 添加 到 输入 每 个 元 素 的 数 
e out (Tensor, optional) — 结果 张 量 


>>> a = torch.randn(4) 
>>> a 


0.4050 

152227 

1.8688 

-0.4185 

[torch.FloatTensor of size 4] 
>>> torch.add(a, 20) 

20.4050 

29573 

21.8688 


1975815 
[torch.FloatTensor of size 4] 


torch.add(input, value=1, other, out=None) 
other 张 量 的 每 个 元 素 乘 以 一 个 标量 值 Value ， 并 加 到 iput 张 量 上 。 返 回 结果 到 输出 张 
€ out ° PP > \( outeinput*(other» value ) Y) 
两 个 张 量 input and other 的 尺寸 不 需要 匹配 ， 但 元 素 总 数 必 须 一 样 。 
注意 : 当 两 个 张 量 形状 不 匹配 时 ， 输 入 张 量 的 形状 会 作为 输出 张 量 的 尺寸 。 


如 果 other 是 FloatTensor or DoubleTensor 类 型 ， 则 value 必须 为 实数 ， 否 则 须 为 整数 。 
【译注 : 似乎 并 非 如 此 ， 无 关 输 入 类 型 value RAR ` RAET o] 


参数 : 


input (Tensor) — 第 一 个 输入 张 量 
value (Number) — 用 于 第 二 个 张 量 的 尺寸 因子 
other (Tensor) 一 第 二 个 输入 张 量 


out (Tensor, optional) 一 结果 张 量 


例子 : 


>>> import torch 
>>> a = torch.randn(4) 
>>> a 


-0.9310 
2.0330 
0.0852 
-0.2941 
[torch.FloatTensor of size 4] 


>>> b = torch.randn(2, 2) 
>>> b 


1.0663 0.2544 
-0.1513 20.0749 
[torch.FloatTensor of size 2x2] 


>>> torch.add(a, 10, b) 
97322 
4.5770 
-1.4279 
0.4552 
[torch.FloatTensor of size 4] 


torch.addcdiv 


torch.addcdiv(tensor, value-i, tensori, tensor2, outzNone) > Tensor 


用 tensor2 对 tensora 逐 元 素 相 除 ， 然 后 乘 以 标量 值 value 并 加 到 tensor ° 

张 量 的 形状 不 需要 匹配 ， 但 元 素数 量 必须 一 致 。 

如 果 输 入 是 FloatTensor or DoubleTensor 类 型 ， 则 value. 必须 为 实数 ， 否 则 须 为 整数 。 
参数 : 


e tensor (Tensor) — 张 量 ， 对 tensor1 ./ tensor 进行 相 加 

e value (Number, optional) 一 标量 ， 对 tensor1 ./ tensor2 进行 相 乘 
e tensor1 (Tensor) 一 张 量 ， 作 为 被 除数 (分 子 ) 

e tensor2 (Tensor) - 张 量 ， 作 为 除数 (分 母 ) 

e out (Tensor, optional) — 输出 张 量 


>>> t - torch.randn(2, 3) 
>>> t1 = torch.randn(1, 6) 
>>> t2 = torch.randn(6, 1i) 
>>> torch.addcdiv(t, 0.1, t1, t2) 


0.0122 -0.0188 -0.2354 


9773960175724: 152878 
[torch.FloatTensor of size 2x3] 


torch.addcmul 


torch.addcmul(tensor, value-i, tensori, tensor2, outzNone) > Tensor 


用 tensor2 对 tensori X8 ， 并 对 结果 乘 以 标量 值 value 然后 加 到 tensor ° 张 量 的 
形状 不 需要 匹配 ， 但 元 素数 量 必须 一 致 。 如 果 输 入 是 FloatTensor or DoubleTensor 类 型 ， 
则 value 必须 为 实数 ， 否 则 须 为 整数 。 


参数 : 


e tensor (Tensor) 一 张 量 ， 对 tensor1 ./ tensor 进行 相 加 

e value (Number, optional) — 标量， 对 tensor1 . tensor2 4748 R 
e tensor1 (Tensor) 一 KE > ARTI 

e tensor2 (Tensor) - 张 量 ， 作 为 乘 子 2 

e out (Tensor, optional) — 输出 张 量 


>>> t - torch.randn(2, 3) 
>>> t1 = torch.randn(1, 6) 
>>> t2 = torch.randn(6, 1) 
>>> torch.addcmul(t, 0.1, t1, t2) 


0750122 .-070188:5-0:2354 
02543965 1757212172818 
[torch.FloatTensor of size 2x3] 


torch.asin 


torch.asin(input, out-zNone) > Tensor 


返回 一 个 新 张 量 ， 包 含 输入 input 张 量 每 个 元 素 的 反正 弦 函 数 
参数 : 


e tensor (Tensor) 一 输入 张 量 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 

>>> a 

-0.6366 

Qu2TT8 

0.4469 

453122 

[torch.FloatTensor of size 4] 


>>> torch.asin(a) 
-0.6900 
92752 
0.4633 
nan 
[torch.FloatTensor of size 4] 


torch.atan 


torch.atan(input, outzNone) > Tensor 


返回 一 个 新 张 量 ， 包 含 输入 input 张 量 每 个 元 素 的 反正 切 函 数 
参数 : 


e tensor (Tensor) 一 输入 张 量 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 

>>> a 

-0.6366 

0.2718 

0.4469 

13122 

[torch.FloatTensor of size 4] 


>>> torch.atan(a) 
2075669 
0:2653 
0.4203 


0.9196 
[torch.FloatTensor of size 4] 


torch.atan2 


torch.atan2(inputi, input2, outzNone) > Tensor 


返回 一 个 新 张 量 ， 包 含 两 个 输入 张 量 inputi 和 input2 的 反正 切 函数 
参数 : 


e input1 (Tensor) 一 第 一 个 输入 张 量 
e input2 (Tensor) — 第 二 个 输入 张 量 


e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> a = torch.randn(4) 

>>> a 

-0.6366 

Qr2T718 

0.4469 

173122 

[torch.FloatTensor of size 4] 


>>> torch.atan2(a, torch.randn(4)) 
-2.4167 

2:9755 

079363 

156613 

[torch.FloatTensor of size 4] 


torch.ceil 


torch.ceil(input, outzNone) > Tensor 


KARA’ GA input 张 量 每 个 元 素 向 上 取 整 , 即 取 不 小 于 每 个 元 素 的 最 小 整数 ， 并 返回 结 
果 到 输出 。 


参数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


1.3869 
0.3912 
-0.8634 
-0.5468 
[torch.FloatTensor of size 4] 


>>> torch.ceil(a) 

2 

1 

-0 

-0 

[torch.FloatTensor of size 4] 


torch.clamp 


torch.clamp(input, min, max, outzNone) > Tensor 


将 输入 input 张 量 每 个 元 素 的 夹 紧 到 区 间 M[min, max] \)， 并 返回 结果 到 一 个 新 张 量 。 


操作 定义 如 下 : 


| min, if x_i < min 
y_i = | x_i, if min <= x i <= max 
| max, if x_i > max 


如 果 输 入 是 FloatTensor or DoubleTensor 类 型 ， 则 参数 min max 必须 为 实数 ， 否 则 须 为 整 
数 。【 译 注 : 似乎 并 非 如 此 ， 无 关 输 入 类 型 ，min ， max REAO RART Oo] 


参数 : 


e input (Tensor) 一 输入 张 量 

e min (Number) 一 限制 范围 下 限 

e max (Number) 一 限制 范围 上 限 

e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> 8 


1.3869 
93912 
-0.8634 
-0.5468 
[torch.FloatTensor of size 4] 


>>> torch.clamp(a, min--0.5, max-0.5) 
0.5000 
90.3912 
-0.5000 


-0.5000 
[torch.FloatTensor of size 4] 


torch.clamp(input, *, min, out=None) > Tensor 


将 输入 input 张 量 每 个 元 素 的 限制 到 不 小 于 min ， 并 返回 结果 到 一 个 新 张 量 。 


如 果 输 入 是 FloatTensor or DoubleTensor 类 型 ， 则 参数 min 必须 为 实数 ， 否 则 须 为 整数 。 
【译注 : 似乎 并 非 如 此 ， 无 关 输 入 类 型 min REA ` EART O] 


参数 : 


e input (Tensor) 一 输入 张 量 
e value (Number) 一 限制 范围 下 限 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


1.3869 
9.3912 
-0.8634 
-0.5468 
[torch.FloatTensor of size 4] 


>>> torch.clamp(a, minz0.5) 
1.3869 
0.5000 
0.5000 


0.5000 
[torch.FloatTensor of size 4] 


torch.clamp(input, *, max, out=None) > Tensor 


将 输入 input 张 量 每 个 元 素 的 限制 到 不 大 于 max ， 并 返回 结果 到 一 个 新 张 量 。 


如 果 输 入 是 FloatTensor or DoubleTensor 类 型 ， 则 参数 max 必须 为 实数 ， 否 则 须 为 整数 。 
【译注 : 似乎 并 非 如 此 ， 无 关 输 入 类 型 ， max PER ERETT o] 


参数 : 


e input (Tensor) — 4i ^k È 
e value (Number) — 限制 范围 上 限 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


1:3869 
9.3912 
-0.8634 
-0.5468 
[torch.FloatTensor of size 4] 


>>> torch.clamp(a, max=0.5) 
0.5000 
9. 3912 
-0.8634 


-0.5468 
[torch.FloatTensor of size 4] 


torch.cos 


torch.cos(input, outzNone) > Tensor 


返回 一 个 新 张 量 包含 输入 input 张 量 每 个 元 素 的 余弦 9 


参数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 

222A 

-0.6366 

0.2718 

0.4469 

13122 

[torch.FloatTensor of size 4] 


>>> torch.cos(a) 

0.8041 

079633 

0.9018 

9:2557 

[torch.FloatTensor of size 4] 


torch.cosh 


torch.cosh(input, outzNone) > Tensor 


返回 一 个 新 张 量 ? 包含 输入 input 张 量 每 个 元 素 的 双 曲 余弦 9 
参数 : 


e input (Tensor) 一 输入 张 量 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 

>>> a 

-0.6366 

0.2718 

0.4469 

413122 

[torch.FloatTensor of size 4] 


>>> torch.cosh(a) 

172095 

10372 

1.1015 

OO 

[torch.FloatTensor of size 4] 


torch.div() 


torch.div(input, value, outzNone) 


将 input ZAER AAR EIE value ， 并 返回 结果 到 输出 张 量 out ° PP \( out=tensorvalue V) 


如 果 输 入 是 FloatTensor or DoubleTensor 类 型 ， 则 参数 value 必须 为 实数 ， 否 则 须 为 整数 。 
【译注 : 似乎 并 非 如 此 ， 无 关 输 入 类 型 ， value MEA ` FAPT o] 


参数 : 


e input (Tensor) 一 输入 张 量 
e value (Number) — 除数 
e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> a = torch.randn(5) 
>>> a 


-0.6147 
L287 
-0.1604 
2016853 
0.1063 
[torch.FloatTensor of size 5] 
>>> torch.div(a, 0.5) 
2152294 
-2.2474 
2073208 
ASAGO 


0.2126 
[torch.FloatTensor of size 5] 


torch.div(input, other, outzNone) 


两 张 量 input 和 other 逐 元 素 相 除 ， 并 将 结果 返回 到 输出 。 即 ，\( out i= input i/ other i) 
两 张 量 形状 不 须 匹 配 ， 但 元 素数 须 一 致 。 

注意 : 当 形状 不 匹配 时 ， input 的 形状 作为 输出 张 量 的 形状 。 

参数 : 


e input (Tensor) 一 张 量 (分 子 ) 
e other (Tensor) 一 张 量 (分 母 ) 
e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> a = torch.randn(4,4) 
>>> a 


<0: 181004017 1072863 -071013 
onos 270696 079012-175933 
9.5679. 0.4743 -0.0117 -9.1266 

-0.1213  0:9629 0.2682 1.5968 
[torch.FloatTensor of size 4x4] 


>>> b = torch.randn(8, 2) 
>>> b 


8774 .7650 


9. 0 

0.8866 31.4805 

-0.6490 1.1172 

1.4259 -0.8146 

1.4633 -0.1228 

0.4643 -0.6029 

073402 1.5270 

1561939726291 
[torch.FloatTensor of size 8x2] 


>>> torch.div(a, b) 


:0:2062 :9:75251 — 9:3229| 070684 
7079528 118525 076320 179559 
0:3881 -978625 070253 0.2099 
2053473 0.6306 0r1666 -275381 
[torch.FloatTensor of size 4x4] 


torch.exp 


torch.exp(tensor, out=None) > Tensor 


返回 一 个 新 张 量 ， 包 人 钨 输入 input 张 量 每 个 元 素 的 指数 。 
参数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) — 输出 张 量 


>>> torch.exp(torch.Tensor([0, math.10g(2)])) 
torch.FloatTensor([1, 2]) 


torch.floor 


torch.floor(input, out=None) > Tensor 


床 函 数 : 返回 一 个 新 张 量 ， 包 含 输入 input 张 量 每 个 元 素 的 foor， 即 不 小 于 元 素 的 最 大 整数 。 
参数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


1.3869 

9.3912 

-0.8634 

-0.5468 

[torch.FloatTensor of size 4] 
>>> torch.floor(a) 

1 

0 

ext 

sat 

[torch.FloatTensor of size 4] 


torch.fmod 


torch.fmod(input, divisor, out=None) > Tensor 
计算 除法 余数 。 除数 与 被 除数 可 能 同时 含有 整数 和 浮 点 数 。 此 时 ， 余 数 的 正 负 与 被 除数 相 
同 。 
参数 : 


e input (Tensor) 一 被 除数 
e divisor (Tensor or float) — 除数 ， 一 个 数 或 与 被 除数 相同 类 型 的 张 量 
e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> torch.fmod(torch.Tensor([-3, -2, -1, 1, 2, 3]), 2) 
torch.FloatTensor([-1, -0, -1, 1, O, 1]) 

>>> torch.fmod(torch.Tensor([41, 2, 3, 4, 5]), 1.5) 
torch.FloatTensor([1.0, 0.5, 0.0, 1.0, 0.5]) 


参考 : torch.remainder() ,计算 乏 元 素 余数 ， 相 当 于 python 中 的 96 操作 符 。 


torch.frac 


torch.frac(tensor, out-None) > Tensor 


>>> torch.frac(torch.Tensor([1, 2.5, -3.2]) 
torch.FloatTensor([0, 0.5, -0.2]) 


torch.lerp 


torch.lerp(start, end, weight, out=None) 


对 两 个 张 量 以 start ， end 做 线性 插值 ， 将 结果 返回 到 输出 张 量 。 
即 ，M out i-start i*weightx(end i-start i) V) 
参数 : 


e start (Tensor) — 起 始点 张 量 
e end (Tensor) 一 终止 点 张 量 
e weight (float) — 插值 公式 的 weight 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> start = torch.arange(1, 5) 
>>> end = torch.Tensor(4).fill (10) 
>>> start 


al 
2 
3 
4 
[torch.FloatTensor of size 4] 


>>> end 


[torch.FloatTensor of size 4] 
>>> torch.lerp(start, end, 0.5) 
5.5000 

6.0000 

6.5000 


7.0000 
[torch.FloatTensor of size 4] 


torch.log 


torch.log(input, outzNone) > Tensor 


计算 input 的 自然 对 数 


参数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) 一 输出 张 量 


例子 : 
>>> a = torch.randn(5) 
>>> a 
-0.4183 
0.3722 
20:309 
0.4149 
0.5857 
[torch.FloatTensor of size 5] 
>>> torch.log(a) 
nan 
7079883 
nan 
LORENA TA 


-0.5349 
[torch.FloatTensor of size 5] 


torch.log1p 


torch.logip(input, out-zNone) > Tensor 


计算 N( input +1\) 的 自然 对 数 \(y_i=log(x_i+1)\) 

注意 : 对 值 比较 小 的 输入 ， 此 元 数 比 torch.log() 更 准确 。 

如 果 输 入 是 FloatTensor or DoubleTensor 类 型 ， 则 value 必须 为 实数 ， 否 则 须 为 整数 。 
参数 : 


e input (Tensor) 一 输入 张 量 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(5) 
>>> a 


-0.4183 
9r 3722 
-0.3091 
0.4149 
9075857 
[torch.FloatTensor of size 5] 


>>> torch.logip(a) 
-0.5418 
0.3164 
-0.3697 
0.3471 


0.4611 
[torch.FloatTensor of size 5] 


torch.mul 


torch.mul(input, value, out=None) 


用 标量 值 value 乘 以 输入 input 的 每 个 元 素 ， 并 返回 一 个 新 的 结果 张 量 。\( out-tensor * 
value Y) 


如 果 输 入 是 FloatTensor or DoubleTensor 类 型 ， 则 value 必须 为 实数 ， 否 则 须 为 整数 。【 译 
注 : 似乎 并 非 如 此 ， 无 关 输 入 类 型 ， value KAR ` AET o] 


参数 : 


e input (Tensor) 一 输入 张 量 
e value (Number) — 乘 到 每 个 元 素 的 数 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(3) 
>>> a 


-0.9374 
-0.5254 
:0:6069 
[torch.FloatTensor of size 3] 


>>> torch.mul(a, 190) 
-93.7411 
-52.5374 


-60.6908 
[torch.FloatTensor of size 3] 


torch.mul(input, other, out=None) 


两 个 张 量 input , other 按 元 素 进行 相 乘 ， 并 返回 到 输出 张 量 。 即 计算 \( out. i-input i 
other i) 


两 计算 张 量 形状 不 须 匹 配 ， 但 总 元 素数 须 一 致 。 注 意 : 当 形 状 不 匹配 时 ， input 的 形状 作为 
输入 张 量 的 形状 。 


参数 : 


e input (Tensor) 一 第 一 个 相 乘 张 量 
e other (Tensor) 一 第 二 个 相 乘 张 量 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> a = torch.randn(4,4) 
>>> a 


20:7280 9.0598 -1.4327 -075825 
-0.1427 -0.0690 20.0821 -0.3270 
20.9241 0.5110 0.4070 -1.1188 
-0.8308 0.7426 -0.6240 -1.1582 
[torch.FloatTensor of size 4x4] 


>>> b = torch.randn(2, 8) 
>>> b 


00430 -1:0775 — 0:6015  1:41647 —0:6549. 0:0308 -0:71670 170742 
-1.2593 0.0292 -0.0849 20.4530 1.2404 -0.4659 -0.1840 20.5974 
[torch.FloatTensor of size 2x8] 
>>> torch.mul(a, b) 

-0.0313 -0.0645 -0.8618 -0.6784 

0.0934 -0:0021 -0.0137 -0.3513 

1.1638 0.0149 -0.0346 -0.5068 


-1.0304 -0.3460 0.1148 -0.6919 
[torch.FloatTensor of size 4x4] 


torch.neg 


torch.neg(input, out=None) > Tensor 


返回 一 个 新 张 量 ， 包 含 输入 input 张 量 按 元 素 取 负 。 Pp» \(out=-1xinput Y) 
参数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> a = torch.randn(5) 
>>> a 


-0.4430 

1:1690 

-0.8836 

-0.4565 

0.2968 
[torch.FloatTensor of size 5] 
>>> torch.neg(a) 
0.4430 

1.1699 

0.8836 

0.4565 


70:2968 
[torch.FloatTensor of size 5] 


torch.pow 


torch.pow(input, exponent, out=None) 
对 输入 input 的 按 元 素 求 exponent 次 需 值 ， 并 返回 结果 张 量 。 FË exponent 可 以 为 单一 
float 数 或 者 与 input 相同 元 素数 的 张 量 。 
当 需 值 为 标量 时 ， 执 行 操作 : 
$$ out_i=x^{exponent} $$ 
当 需 值 为 张 量 时 ， 执 行 操作 : 
$$ out i-x^(exponent i) $$ 
参数 : 


e input (Tensor) — 输入 张 量 
e exponent (float or Tensor) 一 44& 


E 


e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


-0.5274 

2078232 

22:128 

dq 558 

[torch.FloatTensor of size 4] 
>>> torch.pow(a, 2) 

92783 

0.6776 

4.4640 

3.0829 

[torch.FloatTensor of size 4] 
>>> exp = torch.arange(i, 5) 


>>> a = torch.arange(1, 5) 
22> 8 


1 
2 
3 
4 
[torch.FloatTensor of size 4] 


>>> exp 


1 
2 
3 
4 
[torch.FloatTensor of size 4] 
>>> torch.pow(a, exp) 

il 

4 

2f 


256 
[torch.FloatTensor of size 4] 


torch.pow(base, input, outzNone) 


base 为 标量 浮 点 值 , input 为 张 量 ， 返 回 的 输出 张 量 out 与 输入 张 量 相同 形状 。 
执行 操作 为 : 

$$ out i-base^(input i) $$ 

参数 : 


e base (float) — 标量 值 ， 指 数 的 底 
e input ( Tensor) 一 4&4& 
e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> exp = torch.arange(i, 5) 
>>> base = 2 
>>> torch.pow(base, exp) 
2 
4 
8 
16 
[torch.FloatTensor of size 4] 


torch.reciprocal 


torch.reciprocal(input, outzNone) > Tensor 


返回 一 个 新 张 量 ， 包 含 输入 input 张 量 每 个 元 素 的 倒数 ， 即 1.0/x ° 
参数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


153869 
073912 
-0.8634 
-0.5468 
[torch.FloatTensor of size 4] 


>>> torch.reciprocal(a) 
[PC 
2.5565 
L583 


2158289 
[torch.FloatTensor of size 4] 


torch.remainder 


torch.remainder(input, divisor, out-zNone) ~” Tensor 
返回 一 个 新 张 量 ， 包 含 输入 input 张 量 每 个 元 素 的 除法 余数 。 除数 与 被 除数 可 能 同时 包含 整 
数 或 浮 点 数 。 余 数 与 除数 有 相同 的 符号 。 
参数 : 


e input (Tensor) 一 被 除数 
e divisor (Tensor or float) — 除数 ， 一 个 数 或 者 与 除数 相同 大 小 的 张 量 


e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> torch.remainder(torch.Tensor([-3, -2, -1, 1, 2, 3]), 2) 
torch.FloatTensor([1, ©, 1, 1, ©, 1]) 

>>> torch.remainder(torch.Tensor([1, 2, 3, 4, 5]), 1.5) 
torch.FloatTensor([1.0, 0.5, 0.0, 1.0, 0.5]) 


参考 : 函数 torch.fmod() 同样 可 以 计算 除法 余数 ， 相 当 于 C 的 库 函 数 fmod() 


torch.round 


torch.round(input, out=None) > Tensor 


返回 一 个 新 张 量 ， 将 输入 input 张 量 每 个 元 素 舍 入 到 最 近 的 整数 。 


参数 : 


S 


e input (Tensor) 一 输入 张 量 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


12290 
1.3409 
20.5662 
-0.0899 
[torch.FloatTensor of size 4] 


>>> torch.round(a) 
1 

a 

sal 


x 
[torch.FloatTensor of size 4] 


torch.rsqrt 


torch.rsqrt(input, out-None) > Tensor 


返回 一 个 新 张 量 ， 包 人 钨 输入 input 张 量 每 个 元 素 的 平方 根 倒 数 9 


参数 : 


S 


e input (Tensor) — 输入 张 量 


e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


172290 
1.3409 
:0:5662 
-0.0899 
[torch.FloatTensor of size 4] 


>>> torch.rsqgrt(a) 
0.9020 
0.8636 

nan 


nan 
[torch.FloatTensor of size 4] 


torch.sigmoid 


torch.sigmoid(input, out=None) > Tensor 


返回 一 个 新 张 量 ， 包 含 输入 input 张 量 每 个 元 素 的 sigmoid 值 
参数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


-0.4972 
1.3512 
0.1056 
2012659 
[torch.FloatTensor of size 4] 


>>> torch.sigmoid(a) 
0.3782 
0.7943 
0.5264 


0.4341 
[torch.FloatTensor of size 4] 


torch.sign 


torch.sign(input, out=None) > Tensor 


符号 函数 : 返回 一 个 新 张 量 ， 包 含 输入 input 张 量 每 个 元 素 的 正 负 。 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 

>>> a 

70:6366 

0.2718 

0.4469 

13122 

[torch.FloatTensor of size 4] 


>>> torch.sign(a) 


eut 
1 
a 
ak 
[torch.FloatTensor of size 4] 


torch.sin 


torch.sin(input, outzNone) > Tensor 


返回 一 个 新 张 量 ， 包 人 钨 输入 input 张 量 每 个 元 素 的 正弦 。 
参数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 

>>> a 

70.6366 

0.2718 

0.4469 

41573122 

[torch.FloatTensor of size 4] 


>>> torch.sin(a) 

-0.5944 

0.2684 

0.4322 

0.9667 

[torch.FloatTensor of size 4] 


torch.sinh 


torch.sinh(input, out=None) > Tensor 


返回 一 个 新 张 量 ， 包 含 输入 input 张 量 每 个 元 素 的 双 曲 正弦 。 
参数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> a = torch.randn(4) 

>>> a 

-0.6366 

0.2718 

0.4469 

4513122 

[torch.FloatTensor of size 4] 


>>> torch.sinh(a) 

-0.6804 

9-275143 

0.4619 

d 0225 

[torch.FloatTensor of size 4] 


torch.sqrt 


torch.sqrt(input, outzNone) > Tensor 


返回 一 个 新 张 量 ， 包 含 输入 input 张 量 每 个 元 素 的 平方 根 。 
参数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


172290. 
1.3409 
<0. 5662 
-0.0899 
[torch.FloatTensor of size 4] 


>>> torch.sqrt(a) 


1.1086 
1:1580 
nan 
nan 
[torch.FloatTensor of size 4] 


torch.tan 


torch.tan(input, out=None) > Tensor 


返回 一 个 新 张 量 ， 包 人 钨 输入 input 张 量 每 个 元 素 的 正切 。 
参数 : 


e input (Tensor) 一 输入 张 量 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


>>> a = torch.randn(4) 

>>> a 

-0.6366 

0.2718 

0.4469 

3122 

[torch.FloatTensor of size 4] 
>>> torch.tan(a) 

205/392 

0.2786 

0.4792 

3.7801 

[torch.FloatTensor of size 4] 


torch.tanh 


torch.tanh(input, outzNone) > Tensor 


返回 一 个 新 张 量 ， 和 包含 输入 input 张 量 每 个 元 素 的 双 曲 正切 。 
参 


数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> a = torch.randn(4) 

>>> a 

-0.6366 

0.2718 

0.4469 

13122 

[torch.FloatTensor of size 4] 


>>> torch.tanh(a) 

20:5625 

9752653 

0.4193 

0.8648 

[torch.FloatTensor of size 4] 


torch.trunc 


torch.trunc(input, out-zNone) > Tensor 


返回 一 个 新 张 量 ， 包 含 输入 input 张 量 每 个 元 素 的 截断 值 (标量 x 的 截断 值 是 最 接近 其 的 整 
数 ， 其 比 Xx 更 接近 零 。 简 而 言 之 ， 有 符号 数 的 小 数 部 分 被 含 弃 ) 。 


参数 : 


e input (Tensor) — 输入 张 量 
e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


-0.4972 
13512 
0.1056 
-0.2650 
[torch.FloatTensor of size 4] 


>>> torch.trunc(a) 


240] 
s 
0 
28) 
[torch.FloatTensor of size 4] 


Reduction Ops 


torch.cumprod 


torch.cumprod(input, dim, outzNone) > Tensor 


返回 输入 沿 指定 维度 的 累积 积 。 例 如 ， 如 果 输 入 是 一 个 N 元 向 量 ， 则 结果 也 是 一 个 N 元 向 
量 ， 第 i 个 输出 元 素 值 为 \( yi=X1 米 X2 洲 X3 米 .… 沙 Xi V) 


e input (Tensor) — 输入 张 量 
e dim (int) 一 累积 积 操作 的 维度 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> a = torch.randn(10) 
>>> a 


1.1148 
1.8423 
1.4143 
0.4403 
1.2859 
21572514 
-0.4748 
ad 735 
23156932 
-0.4272 
[torch.FloatTensor of size 10] 


>>> torch.cumprod(a, dim=0) 


.1148 
9537 
.9045 
2152798 
-1.6444 
250578 
20959750 
-1.1466 
4176726 
-0.8000 
[torch.FloatTensor of size 10] 


NNE 


>>> a[5] = 0.0 
>>> torch.cumprod(a, dim=0) 


1.1148 
2:053 
2.9045 
2122798 
-1.6444 
-0.0000 
0.0000 
0.0000 
-0.0000 
0.0000 
[torch.FloatTensor of size 10] 


torch.cumsum 


torch.cumsum(input, dim, out=None) > Tensor 


返回 输入 沿 指定 维度 的 累积 和 。 例 如 ， 如 果 输 入 是 一 个 N 元 向 量 ， 则 结果 也 是 一 个 N 元 向 量 ， 


UR 
第 i 个 输出 元 素 值 为 \ yi=x1+x2+x3+...+xXi\) 


e input (Tensor) — 输入 张 量 
e dim (int) 一 累积 和 操作 的 维度 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> a = torch.randn(10) 
>>> a 


-0.6039 
-0.2214 
20537205 
0/5 0:69 
1.3415 
0. 1230 
9597539 
0.6081 
7011286 
1.0947 
[torch.FloatTensor of size 10] 


>>> torch.cumsum(a, dim=0) 


-0.6039 
-0.8253 
Eu O5 
0122127 
0.1288 
0.0058 
(sts TER 
1.5858 
ded 
219919 
t 


torch.dist 


torch.dist(input, other, p=2, out=None) > Tensor 


返回 ( input - other ) 的 p 范 数 。 
参数 : 


e input (Tensor) 一 输入 张 量 


e other (Tensor) - 右 侧 输 入 张 量 
e p (float, optional) — 所 计算 的 范 数 
e out (Tensor, optional) 一 结果 张 量 


例子 : 


>>> x = torch.randn(4) 
>>> X 


0.2505 
-0.4571 
037339 
9077907 
[torch.FloatTensor of size 4] 


>>> y = torch.randn(^) 
>>> y 


(OA A 

20/5385 

1.4106 

-2.4063 
[torch.FloatTensor of size 4] 
>>> torch.dist(x, y, 3.5) 
3.302832063224223 

>>> torch.dist(x, y, 3) 
3.3677282206393286 

>>> torch.dist(x, y, 0) 
inf 

>>> torch.dist(x, y, 1) 
5.560028076171875 


torch.mean 


torch.mean(input) > float 


返回 输入 张 量 所 有 元 素 的 均值 。 
参数 : input (Tensor) 一 输入 张 量 


例子 : 
>>> a = torch.randn(1, 3) 
>>> a 


-0.2946 -0.9143 2.1809 
[torch.FloatTensor of size 1x3] 


>>> torch.mean(a) 
0.32398951053619385 


torch.mean(input, dim, out=None) > Tensor 


返回 和 输入 张 量 给 定 维度 dim 上 每 行 的 均值 。 


输出 形状 与 输入 相同 ， 除 了 给 定 维度 上 为 1. 
参数 : 


e input (Tensor) — 4i ^. Kk È 
e dim (int) — the dimension to reduce 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> a = torch.randn(4, 4) 
>>> a 


<1. 2738. -073058 90712305 -179615 
9:87/1.-0:5430 -0:9233 0 9879 
1-23197:207031745-0:56823259072255 
-1.3854 0.4953 -0.2160 0.2435 
[torch.FloatTensor of size 4x4] 


>>> torch.mean(a, 1) 
-0.38545 

0.0997 

0.2464 


S0 2157 
[torch.FloatTensor of size 4x1] 


torch.median 


torch.median(input, dim=-1, values=None, indices=None) -> (Tensor, LongTensor) 


返回 输入 张 量 给 定 维度 了 的 中 位 数 ， 同 时 返 回 一 个 包 包含 中 位 数 的 索引 的 LongTensor ° 
dim 值 默认 为 输入 张 量 的 最 后 一 维 。 输出 形状 与 输入 相同 ， 除 了 给 定 维 度 上 为 1. 


注意 : 这 个 函数 还 没有 在 torch.cuda.Tensor 中 定义 


e input (Tensor) — 输入 张 量 

e dim (int) 一 缩减 的 维度 

e values (Tensor, optional) — 结果 张 量 

e indices (Tensor, optional) 一 返回 的 索引 结果 张 量 


»»»5 a 


2076891—-0:76662 
0.2697 20.7412 
0.5254 -0.7402 
075528 -072399 
[torch.FloatTensor of size 4x2] 


>>> a = torch.randn(4, 5) 
>>> a 


0.4056 -0.3372 1.0973 -2.4884 0.4334 
2.1336 0.3841 0.1404 -0.1821 -0.7646 
2072409 1. 2975 -2.0068 1 0712981070212 
:41:53/:10:57257.5-0:7489/5:1.-0:229599-1:51:724 
[torch.FloatTensor of size 4x5] 

>>> torch.median(a, 1) 

0.4056 

0.1404 

030212 

202 5y, 

[torch.FloatTensor of size 4x1] 

, 

0 
2 
4 
al 
t 


[torch.LongTensor of size 4x1] 
) 


torch.mode 


torch.mode(input, dim=-1, values=None, indices=None) -> (Tensor, LongTensor) 
返回 给 定 维 dim 上 ， 每 行 的 众 数 值 9 同时 返回 一 个 LongTensor ^? 包含 众 数 职 的 索 
引 。 dim 值 默认 为 输入 张 量 的 最 后 一 维 。 
输出 形状 与 输入 相同 ， 除 了 给 定 维度 上 为 1. 
注意 : 这 个 函数 还 没有 在 torch.cuda.Tensor 中 定义 
参数 : 


e input (Tensor) 一 输入 张 量 

e dim (int) 一 缩减 的 维度 

e values (Tensor, optional) — 结果 张 量 

e indices (Tensor, optional) — 返回 的 索引 张 量 


例子 : 


>>> a 
2076891—-0:76662 

0.2697 20.7412 

0.5254 -0.7402 

075528 -072399 
[torch.FloatTensor of size 4x2] 


>>> a = torch.randn(4, 5) 
2525» a 


0.4056 -0.3372 1.0973 -2.4884 0.4334 
2.1336 0.3841 0.1404 -0.1821 -0.7646 
-0.2403 1.3975 -2.0068 0.1298 20.0212 
-1.5371 -0.7257 -0.4871 -0.2359 -1.1724 
[torch.FloatTensor of size 4x5] 

>>> torch.mode(a, 1) 

( 

-2.4884 

-0.7646 

-2.0068 

zd 5373 

[torch.FloatTensor of size 4x1] 

, 

3 
4 
2 
0 
t 


[torch.LongTensor of size 4x1] 
) 


torch.norm 


torch.norm(input, p=2) > float 


返回 输入 张 量 input 的 p 范 数 。 
参数 : 


e input (Tensor) 一 输入 张 量 
e p (float,optional) — i5 Zcit JE "P 89 4848 24 


例子 : 
>>> a = torch.randn(i, 3) 
>>> a 


-0.4376 -0.5328 20.9547 
[torch.FloatTensor of size 1x3] 


>>> torch.norm(a, 3) 
1.0338925067372466 


torch.norm(input, p, dim, outzNone) > Tensor 


返回 输入 张 量 给 定 维 dim 上 每 行 的 p 范 数 。 输出 形状 与 输入 相同 ， 除 了 给 定 


维度 上 为 1. 


参数 : 


e input (Tensor) — 输入 张 量 

e p (float) — 范 数 计算 中 的 震 指 数值 
e dim (int) — 缩减 的 维度 

e out (Tensor, optional) — 25 IK € 


例子 : 
>>> a = torch.randn(4, 2) 
>>> a 
:0:6891.—0:6602 
9072697 7077412 
0.5254 -0.7402 
055287072399 
[torch.FloatTensor of size 4x2] 
>>> torch.norm(a, 2, 1) 
0.19585 
0.7888 
0.9077 
0.6026 
[torch.FloatTensor of size 4x1] 


>>> torch.norm(a, ©, 1) 


2 
2 
2 
2. 
t 


[torch.FloatTensor of size 4x1] 


torch.prod 


torch.prod(input) > float 


返回 和 输入 张 量 input 所 有 元 素 的 积 。 
参数 : input (Tensor) — 输入 张 量 


例子 : 
>>> a = torch.randn(1, 3) 
>>> a 


0.6170 20.3546 20.0253 
[torch.FloatTensor of size 1x3] 


>>> torch.prod(a) 
0.005537458061418483 


torch.prod(input, dim, out=None) > Tensor 


返回 输入 张 量 给 定 维度 上 每 行 的 积 。 输出 形状 与 输入 相同 ， 除 了 


e input (Tensor) — 4i ^K È 
e dim (int) — 缩减 的 维度 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> a = torch.randn(4, 2) 
>>> a 


0.1598 -0.6884 

-0.1831 -0.4412 

-0.9925 -0.6244 

-0.2416 -0.8080 
[torch.FloatTensor of size 4x2] 
>>> torch.prod(a, 1) 

-0.1100 

0.0808 

0.6197 


9.1952 
[torch.FloatTensor of size 4x1] 


torch.std 


torch.std(input) > float 


返回 输入 张 量 input 所 有 元 素 的 标准 差 。 
参数 : - input (Tensor) 一 输入 张 量 


例子 : 
>>> a = torch.randn(1, 3) 


> 


=1. 3063 1.4182 -9.3061 
[torch.FloatTensor of size 1x3] 


>>> torch.std(a) 
1.3782334731508061 


torch.std(input, dim, outzNone) > Tensor 


返回 输入 张 量 给 定 维度 上 每 行 的 标准 差 。 输出 形状 与 输入 相同 ， 除 了 给 定 维度 上 为 1. 


X ER EX. 


e input (Tensor) — 输入 张 量 
e dim (int) 一 缩减 的 维度 
e out (Tensor, optional) — 结果 张 量 


例子 : 
>>> a = torch.randn(4, 4) 
>>> a 
0.1889 -2.4856 20.0043 1.8169 
-0.7701 -0.4682 -2.2410 20.4098 
Or T9T10E 198560 1:50961 519/9085 
0:591/3 1720662 1022143: 925576 
[torch.FloatTensor of size 4x4] 
>>> torch.std(a, dim-i) 
d 7156 
171025 
1.0045 


0L 6725 
[torch.FloatTensor of size 4x1] 


torch.sum 


torch.sum(input) — float 


返回 输入 张 量 input 所 有 元 素 的 和 。 
输出 形状 与 输入 相同 ， 除 了 给 定 维度 上 为 1. 
参数 : 

e input (Tensor) — 输入 张 量 


例子 : 


>>> a = torch.randn(1, 3) 
>>> a 


0.6170 20.3546 20.0253 
[torch.FloatTensor of size 1x3] 


>>> torch.sum(a) 
0.9969287421554327 


torch.sum(input, dim, outzNone) > Tensor 


返回 输入 张 量 给 定 维度 上 每 行 的 和 。 输出 形状 与 输入 相同 ， 除 了 给 定 维度 上 为 1. 


e input (Tensor) — 输入 张 量 
e dim (int) 一 缩减 的 维度 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> a = torch.randn(4, 4) 
>>> a 


-0.4640 0.0609 1122 0.4784 
-1.3063 1.6443 4714 -0.7396 
2135610719597 T0609 1599855 
2.6833 20.5746 -0.5709 -0.4430 
[torch.FloatTensor of size 4x4] 


9: 
QF 


>>> torch.sum(a, 1) 


0.1874 
0.0698 
-2.4767 
2.2440 
[torch.FloatTensor of size 4x1] 


torch.var 


torch.var(input) — float 


返回 输入 张 量 所 有 元 素 的 方差 
输出 形状 与 输入 相同 ， 除 了 给 定 维度 上 为 1. 
参数 : 

e input (Tensor) — 输入 张 量 


例子 : 


>>> a = torch.randn(i, 3) 
>>> a 


:1:3063 1.4182 -9.3061 
[torch.FloatTensor of size 1x3] 


>>> torch.var(a) 
1.899527506513334 


torch.var(input, dim, outzNone) > Tensor 


返回 输入 张 量 给 定 维度 上 每 行 的 方差 。 输出 形状 与 输入 相同 ， 除 了 给 定 维度 上 为 1. 


e input (Tensor) — 输入 张 量 

e dim (int) — the dimension to reduce 

e out (Tensor, optional) — 结果 张 量 例子 : 
a = torch.randn(4, 4) a 


"python 


-1.2738 -0.3058 0.1230 -1.9615 0.8771 -0.5430 -0.9233 0.9879 1.4107 0.0317 -0.6823 
0.2255 -1.3854 0.4953 -0.2160 0.2435 [torch.FloatTensor of size 4x4] 


torch.var(a, 1) 


0.8859 0.9509 0.7548 0.6949 [torch.FloatTensor of size 4x1] 


## 比较 操作 Comparison Ops 


### torch.eq 
`` python 
torch.eq(input, other, outzNone) > Tensor 


比较 元 素 相 等 性 。 第 二 个 参数 可 为 一 个 数 或 与 第 一 个 参数 同类 型 形状 的 张 量 。 
参数 : 


e input (Tensor) 一 待 比较 张 量 
e other (Tensor or float) — 比较 张 量 或 数 
e out (Tensor, optional) — 输出 张 量 ， 须 为 ByteTensor 类 型 or 5 input M 


返回 


类 型 

w: 一 个 torch.ByteTensor 张 量 ， 包含 了 每 个 位 置 的 比较 结果 (相等 为 1 : 不 等 为 0 ) 
返回 类 型 : Tensor 

列子 : 


例 


>>> torch.eq(torch.Tensor([[1, 2], [3, 4]]), torch.Tensor([[1, 1], [4, 4]])) 
SEE C) 

(0) cal 

[torch.ByteTensor of size 2x2] 


torch.equal 


torch.equal(tensori, tensor2) > bool 


如 果 两 个 张 量 有 相同 的 形状 和 元 素 值 ， 则 返回 True 
例子 : 


>] False ° 


>>> torch.equal(torch.Tensor([1, 2]), torch.Tensor([1, 2])) 
True 


torch.ge 


torch.ge(input, other, outzNone) > Tensor 


ZAKIR input 和 other ， 即 是 否 Winput >= other \) » 


如 果 两 个 张 量 有 相同 的 形状 和 元 素 值 ， 则 返回 True ^ 4X] False ° 第 二 个 参数 可 以 为 一 个 
数 或 与 第 一 个 参数 相同 形状 和 类 型 的 张 量 
参数 : 

e input (Tensor) — 待 对 比 的 张 量 


e other (Tensor or float) — 对 比 的 张 量 或 float 值 
e out (Tensor, optional) — 输出 张 量 。 必 须 为 ByteTensor 或 者 与 第 一 个 参数 tensor 相同 类 


型 。 

返回 值 : 一 个 torch.ByteTensor 张 量 ， 包 含 了 每 个 位 置 的 比较 结果 (是 否 input >= other ) » 
返回 类 型 : Tensor 

例子 


>>> torch.ge(torch.Tensor([[1, 2], [3, 4]]), torch.Tensor([[1, 1], [4, 4]])) 
"1st: 

(o sb 

[torch.ByteTensor of size 2x2] 


torch.gt 


torch.gt(input, other, outzNone) > Tensor 


逐 元 素 比 较 input 和 other ， 即 是 否 \ input > other V) 如 果 两 个 张 量 有 相同 的 形状 和 元 素 
值 ， 则 返回 True ^ GJ] False 。 第 二 个 参数 可 以 为 一 个 数 或 与 第 一 个 参数 相同 形状 和 类 型 
的 张 量 
参数 : 

e input (Tensor) - 3t i55 gk * 

e other (Tensor or float) — 要 对 比 的 张 量 或 float 值 


e out (Tensor, optional) — 输出 张 量 。 必 须 为 ByteTensor 或 者 与 第 一 个 参数 tensor 相同 类 


型 。 


值 : 一 个 torch.ByteTensor 张 量 ， 包 含 了 每 个 位 置 的 比较 结果 (是 否 input >= other ) » 


tJ 
回 类 型 : Tensor 
子 


>>> torch.gt(torch.Tensor([[1, 2], [3, 4]]), torch.Tensor([[1, 1], [4, 4]])) 
O: 

omo 

[torch.ByteTensor of size 2x2] 


torch.kthvalue 


torch.kthvalue(input, k, dim=None, out=None) -> (Tensor, LongTensor) 


取 输 入 张 量 input 指定 维 上 第 k 个 最 小 值 o 如果 不 指定 dim ， 则 默认 为 input 的 最 后 一 维 


返回 一 个 元 组 (values,indices)， 其 中 indices 是 原始 输入 张 量 input 中 沿 dim 维 的 第 k 个 
最 小 值 下 标 。 


参数 : 


e input (Tensor) 一 要 对 比 的 张 量 

。k (int) 一 第 k 个 最 小 值 

e dim (int, optional) — 沿 着 此 维 进行 排序 
组 ( 


e out (tuple, optional) 一 输出 元 组 (Tensor, LongTensor) 可 选 地 给 定 作 为 输出 buffers 


例子 : 
>>> x = torch.arange(1, 6) 
22> X 
1 
2 
3 
4 
5 
[torch.FloatTensor of size 5] 


>>> torch.kthvalue(x, 4) 


( 
4 


[torch.FloatTensor of size 1] 


, 


3 
[torch.LongTensor of size 1] 


) 


torch.le 


torch.le(input, other, outzNone) > Tensor 


ZAKIR input 和 other ， 即 是 否 \( input <= other V) 第 二 个 参数 可 以 为 一 个 数 或 与 第 一 
个 参数 相同 形状 和 类 型 的 张 量 


参数 : 


e input (Tensor) 一 要 对 比 的 张 量 
e other (Tensor or float ) 一 对 比 的 张 量 或 float 值 
e out (Tensor, optional) 一 输出 张 量 。 必 须 为 ByteTensor 或 者 与 第 一 个 参数 tensor 相同 类 


型 。 
返回 值 : 一 个 torch.ByteTensor KE > 包含 了 每 个 位 置 的 比较 结果 (是 否 input >= other )。 
返回 类 型 : Tensor 

例子 


>>> torch.le(torch.Tensor([[1, 2], [3, 4]]), torch.Tensor([[1, 1], [4, 4]])) 
a 

DENIS" 

[torch.ByteTensor of size 2x2] 


torch.It 


torch.lt(input, other, outzNone) > Tensor 


ZAKIR input 和 other ， 即 是 否 \( input < other V) 


第 二 个 参数 可 以 为 一 个 数 或 与 第 一 个 参数 相同 形状 和 类 型 的 张 量 
参数 : 


e input (Tensor) 一 要 对 比 的 张 量 
e other (Tensor or float ) 一 对 比 的 张 量 或 float 值 
e out (Tensor, optional) 一 输出 张 量 。 必 须 为 ByteTensor 或 者 与 第 一 个 参数 tensor 相同 类 


型 。 
input: 一 个 torch.ByteTensor 张 量 ， 包 含 了 每 个 位 置 的 比较 结果 (是 否 tensor >= other )。 
返回 类 型 : Tensor 


例子 : 


>>> torch.lt(torch.Tensor([[1, 2], [3, 4]]), torch.Tensor([[1, 1], [4, 4]])) 
0 0 

d 

[torch.ByteTensor of size 2x2] 


torch.max 


torch.max() 


返回 输入 张 量 所 有 元 素 的 最 大 值 。 


参数 : 


S 


e input (Tensor) — 输入 张 量 


例子 : 


>>> a = torch.randn(1, 3) 
>>> a 


0.4729 -0.2266 -0.2085 
[torch.FloatTensor of size 1x3] 


>>> torch.max(a) 
0.4729 


torch.max(input, dim, max-None, max indices-None) -> (Tensor, LongTensor) 


返回 输入 张 量 给 定 维度 上 每 行 的 最 大 值 ， 并 同时 返回 每 个 最 大 值 的 位 置 索引 。 
输出 形状 中 ， 将 aim 维 设 定 为 1， 其 它 与 输入 形状 保持 一 致 。 
参数 : 


e input (Tensor) — 4i ^. 5k X 

e dim (int) 一 指定 的 维度 

e max (Tensor, optional) — 结果 张 量 ， 包 含 给 定 维度 
e max indices (LongTensor, optional) — 结 


例子 : 


>> a = torch.randn(4, 4) 
>> a 


0.0692 20.3142 31.2513 -0.5428 
0.9288 0.8552 -0.2073 20.6409 
10695 -0.0101 274507 -1.2230 
0.7426 -0.7666 0.4862 -0.6628 
torch.FloatTensor of size 4x4] 
>>> torch.max(a, 1) 

4025339 

0.9288 

1.0695 

0.7426 

[torch.FloatTensor of size 4x1] 
y 

2 
0 
0 
0 
t 


[torch.LongTensor of size 4x1] 
) 


torch.max(input, other, outzNone) > Tensor 


返回 输入 张 量 给 定 维度 上 每 行 的 最 大 值 ， 并 同时 返回 每 个 最 大 值 的 位 置 索引 。 即 ，\( 
out_i=max(input_i,other_i) \) 


输出 形状 中 ， 将 dim 维 设 定 为 1， 其 它 与 输入 形状 保持 一 致 。 
参数 : 


e input (Tensor) — 输入 张 量 
e other (Tensor) - 输出 张 量 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


1.3869 
9.3912 
-0.8634 
-0.5468 
[torch.FloatTensor of size 4] 


>>> b = torch.randn(4) 
>>> b 


1.0067 

<0. 8010 

0.6258 

0.3627 

[torch.FloatTensor of size 4] 
>>> torch.max(a, b) 

1.3869 

073912 

0.6258 


0.3627 
[torch.FloatTensor of size 4] 


torch.min 


torch.min(input) — float 


返回 输入 张 量 所 有 元 素 的 最 小 值 。 
参数 : input (Tensor) — 输入 张 量 


例子 : 


>>> a = torch.randn(1, 3) 
>>> a 


90.4729 -072266 -072085 
[torch.FloatTensor of size 1x3] 


>>> torch.min(a) 
-0.22663167119026184 


torch.min(input, dim, min=None, min_indices=None) -> (Tensor, LongTensor) 


返回 和 输入 张 量 给 定 维度 上 每 行 的 最 小 值 ， 并 同时 返回 每 个 最 小 值 的 位 置 索引 。 
输出 形状 中 ， 将 aim 维 设 定 为 1， 其 它 与 输入 形状 保持 一 致 。 
参数 : 


e input (Tensor) — 输入 张 量 
e dim (int) 一 指定 的 维度 


e min (Tensor, optional) — 结果 张 量 ， 包 
e min indices (LongTensor, optional) — 


例子 : 


>> a = torch.randn(4, 4) 
>> 8 


0.0692 0.3142 31.2513 -9. 
0.9288 0.8552 -0.2073 ©. 
1.0695 -0.0101 -2.4507 -1. 
0.7426 -0.7666 0.4862 -0. 
torch.FloatTensor of size 


>> torch.min(a, 1) 


0.5428 
0.2073 
2.4507 
0.7666 
torch.FloatTensor of size 


3 
2 
2 
4 
t 


5428 
6409 
2230 
6628 
4x4] 


4x1] 


orch.LongTensor of size 4x1] 


torch.min(input, other, out=None) > Tensor 


input 中 和 逐 元 素 与 other 相应 位 置 的 元 素 对 比 ， 返 回 最 小 值 到 输出 张 量 。 即 ，M out i = 


min(tensor i, other_i)N) 


两 张 量 形状 不 需 匹 配 ， 但 元 素数 须 相 同 。 


注意 : 当 形 状 不 匹配 时 ， input 的 形状 作为 返回 张 量 的 形状 。 


参数 : 


e input (Tensor) — 输入 张 量 


e other (Tensor) 一 第 二 个 输入 张 量 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> a = torch.randn(4) 
>>> a 


1.3869 
9.3912 
-0.8634 
-0.5468 
[torch.FloatTensor of size 4] 


>>> b = torch.randn(4) 
>>> b 


1.0067 
<0. 8010 
0.6258 
0.3627 
[torch.FloatTensor of size 4] 


>>> torch.min(a, b) 
1.0067 

-0.8010 

-0.8634 


-0.5468 
[torch.FloatTensor of size 4] 


torch.ne 


torch.ne(input, other, outzNone) > Tensor 
ZAKR input 和 other ， 即 是 否 Winput!- other ) ». 第 二 个 参数 可 以 为 一 个 数 或 与 第 
一 个 参数 相同 形状 和 类 型 的 张 量 
参数 : 


e input (Tensor) — 待 对 比 的 张 量 
e other (Tensor or float) — 对 比 的 张 量 或 float 值 
e out (Tensor, optional) — 输出 张 量 。 必 须 为 ByteTensor 或 者 与 input 相同 类 型 。 


返回 值 : 一 个 torch.ByteTensor 张 量 ， 包含 了 每 个 位 置 的 比较 结果 (如 果 tensor != other 
为 True ， 返 回 1 )? 


返回 类 型 : Tensor 


例子 : 


>>> torch.ne(torch.Tensor([[1, 2], [3, 4]]), torch.Tensor([[1, 1], [4, 4]])) 
goi 

dE 

[torch.ByteTensor of size 2x2] 


torch.sort 


torch.sort(input, dim=None, descending=False, out=None) -> (Tensor, LongTensor) 


对 输入 张 量 input 沿 着 指定 维 按 升 序 排序 。 如 果 不 给 定 dim ， 则 默认 为 输入 的 最 后 一 维 。 如 
果 指 定 和 参数 descending 为 True ， 则 按 降 序 排序 


返回 元 组 (sorted tensor, sorted indices) * sorted indices 为 原始 输入 中 的 下 标 。 
参数 : 


e input (Tensor) - £l re hg gk * 

e dim (int, optional) — 沿 着 此 维 排序 

e descending (bool, optional) — 布尔 值 ， 控 制 升降 排序 

e out (tuple, optional) — 输出 张 量 。 必 须 为 ByteTensor 或 者 与 第 一 个 参数 tensor 相同 类 


型 。 
例子 : 


>>> x = torch.randn(3, 4) 
>>> sorted, indices = torch.sort(x) 
>>> sorted 


-1.6747 20.0610 20.1190 1.4137 
2154792 0.7159 1.0341 1,3678 
20:3324 —0/10782 79:35:18. 2074763 
[torch.FloatTensor of size 3x4] 


>>> indices 


>>> sorted, indices = torch.sort(x, 0) 
>>> sorted 


21.60747 -070782 —1:4782 -073324 
0:3518 0.0610 0,14763 9.1190 
10341 2077159 T.4137 T.3678 
[torch.FloatTensor of size 3x4] 


>>> indices 


torch.topk 


torch.topk(input, k, dim=None, largest=True, sorted=True, out=None) -> (Tensor, LongTe 
nsor) 


沿 给 定 dim 维度 返回 输入 张 量 input 中 k 个 最 大 值 。 如 果 不 指定 dim ， 则 默认 
为 Input 的 最 后 一 维 o 如 果 为 largest 为 False ， 则 返回 最 小 的 k 个 值 。 


返回 一 个 元 组 (Values,indices)， 其 中 indices 是 原始 输入 张 量 inut 中 测 元 素 下 标 。 如 果 设 
定 布尔 值 sorted 为 Tue， 将 会 确保 返回 的 k 个 值 被 排序 。 


参数 : 


e input (Tensor) 一 输入 张 量 

e k (int) 一 “top-k” 中 的 k 

e dim (int, optional) — 排序 的 维 

e largest (bool, optional) — 7k 4: 4& > 控制 返回 最 大 或 最 小 值 

e sorted (bool, optional) 一 布尔 值 ， 控制 返 回 值 是 否 排 序 

e out (tuple, optional) — 可 选 输出 张 量 (Tensor, LongTensor) output buffers 


>>> x = torch.arange(1, 6) 
>>> X 


al 
2 
3 
4 
5 
t 


[torch.FloatTensor of size 5] 


>>> torch.topk(x, 3) 
( 


5 
4 
3 
[torch.FloatTensor of size 3] 


4 
3 
2 
[torch.LongTensor of size 3] 


) 
>>> torch.topk(x, 3, 0, largest=False) 


( 
3 
2 
3 

[torch.FloatTensor of size 3] 


0 
i 
2 
[torch.LongTensor of size 3] 
) 


其 它 操作 Other Operations 


torch.cross 


torch.cross(input, other, dim=-1, out=None) > Tensor 


返回 沿 着 维度 dim b? AAKE input 和 other 的 向 量 积 (GR) 。 
有 相同 的 形状 ， 且 指定 的 dim 维 上 size 必 须 为 3 。 


input 和 other 必须 


如 果 不 指 定 dim ， 则 默认 为 第 一 个 尺度 为 3 的 维 。 
参数 : 


e input (Tensor) — 输入 张 量 
e other (Tensor) 一 第 二 个 输入 张 量 
e dim (int, optional) — 沿 着 此 维 进行 又 积 操作 


号 


e out (Tensor,optional) 一 结果 张 量 


例子 : 


>>> a = torch.randn(4, 3) 


AAR a 


<2076652 -1 0116 <0: 
0.2286 0.4446 -0. 
9704/6 m0 2321 1: 
9.6199 1.1924 -09: 
[torch.FloatTensor 


6857 
5212 
9991. 
9397 
of size 4x3] 


>>> b = torch.randn(4, 3) 


>>> b 


30.1042 -1.1156 T0: 
0.9947 0.1149 ©. 
1.0108 1078319 -0. 
0.9045 -1.:3754 1i. 
[torch.FloatTensor 


>>> torch.cross(a, 


3059619 072009 T07 
02696: -0.6318 -0. 
:1:52680540-2 707/41 209: 
97901635-1:753042 0-3: 
[torch.FloatTensor 


>>> torch.cross(a, 


2029619 11012009 — 0: 
0.2696 -076318 -0: 
:1:26805.-2 79 T/41 20: 
970163 -1:5304 = 
[torch.FloatTensor 


torch.diag 


1947 
4701 
0750 
0976 
of size 4x3] 


b, dim-i) 


6367 
4160 
2741 
9311 
of size 4x3] 


b) 


6367 
4160 
2741 
9311 
of size 4x3] 


torch.diag(input, diagonal-0, out=None) > Tensor 


e 如 果 输 入 是 一 个 向 量 (1D 张 量 )， 则 返回 一 个 以 input 为 对 角 线 元 素 的 2D 方 阵 
e 如 果 输 入 是 一 个 矩阵 (2D 张 量 )， 则 返回 一 个 包含 input 对 角 线 元 素 的 1D 张 量 


参数 diagonal 指定 对 角 线 : 


e diagonal = 0, 主 对 角 线 
e diagonal > 0， 主 对 角 线 之 上 
e diagonal < 0， 主 对 角 线 之 下 


žk : 


e input (Tensor) — 输入 张 量 
e diagonal (int, optional) 一 指定 对 角 线 
e out (Tensor, optional) — 输出 张 量 


例子 : 
e 取得 以 input 为 对 角 线 的 方 阵 : ^U python 
a = torch.randn(3) a 
1.0480 -2.3405 -1.1138 [torch.FloatTensor of size 3] 
torch.diag(a) 


1.0480 0.0000 0.0000 0.0000 -2.3405 0.0000 0.0000 0.0000 -1.1138 [torch.FloatTensor of 
size 3x3] 


torch.diag(a, 1) 


0.0000 1.0480 0.0000 0.0000 0.0000 0.0000 -2.3405 0.0000 0.0000 0.0000 0.0000 -1.1138 
0.0000 0.0000 0.0000 0.0000 [torch.FloatTensor of size 4x4] 


- 取得 给 定 矩 阵 第 `K ` 个 对 角 线 : 


a = torch.randn(3, 3) a 


-1.5328 -1.3210 -1.5204 0.8596 0.0471 -0.2239 -0.6617 0.0146 -1.0817 [torch.FloatTensor 
of size 3x3] 


torch.diag(a, 0) 
-1.5328 0.0471 -1.0817 [torch.FloatTensor of size 3] 
torch.diag(a, 1) 
-1.3210 -0.2239 [torch.FloatTensor of size 2] 
### torch.histc 


`` python 
torch.histc(input, bins=100, min=0, max=0, out=None) > Tensor 


计算 输入 张 量 的 直方 图 。 以 min 和 max 为 range 边 界 ， 将 其 均 分 成 bins 个 直 条 ， 然 后 将 排序 
好 的 数据 划分 到 各 个 直 条 (bins) 中 。 如 果 min 和 max 都 为 0, 则 利用 数据 中 的 最 大 最 小 值 作为 
边界 。 
参数 : 


e input (Tensor) 一 输入 张 量 

e bins (int) 一 直方 图 bins( 直 条 ) 的 个 数 (默认 100 个 ) 
e min (int) 一 range 的 下 边界 (包含 ) 

e max (int) 一 range 的 上 边界 (包含 ) 

e out (Tensor, optional) — 结果 张 量 


返回 : 直方 图 返回 类 型 : 张 量 


例子 : 


>>> torch.histc(torch.FloatTensor([41, 2, 1]), bins-4, min=0, max-3) 
FloatTensor([0, 2, 1, 9]) 


torch.renorm 


torch.renorm(input, p, dim, maxnorm, out-None) > Tensor 


返回 一 个 张 量 ， 包 含 规范 化 后 的 各 个 子 张 量 ， 使 得 沿 着 dim 维 划分 的 各 子 张 量 的 p 范 数 小 
于 maxnorm ° 

注意 如 果 p 范 数 的 值 小 于 maxnorm ， 则 当前 子 张 量 不 需要 修改 。 

注意 : 更 详细 解释 参考 torch7 以 及 Hinton et al. 2012, p. 2 

参数 : 


e input (Tensor) — 输入 张 量 

p (float) — 范 数 的 p 

e dim (int) — 沿 着 此 维 切 片 ， 得 到 张 量子 集 

e maxnorm (float) 一 每 个 子 张 量 的 范 数 的 最 大 值 
e out (Tensor, optional) — 结果 张 量 


例子 : 


>>> x = torch.ones(3, 3) 
>>> x[1].fill (2) 

>>> x[2].fill (3) 

»» x 


REI SE 
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3 3 
torc 


TODP 


[torch. 


>>> torch.renorm(x, 1, 0, 5) 


or loatTensor of size 3x3] 


1.0000 1.0000 1.0000 
1.6667 31.6667 1.6667 
176667 1.6667 T6667 
[torch.FloatTensor of size 3x3] 


torch.trace 


torch.trace(input) > float 


A el Mp 228 AE Top f AUGE 82 e Gk) 


例子 : 
>>> x = torch.arange(i, 10).view(3, 3) 
»» Xx 
1122 3 
4 5 6 
TE iss) 
[torch.FloatTensor of size 3x3] 
>>> torch.trace(x) 
1570 
torch.tril 


torch.tril(input, k=0, out=None) > Tensor 
返回 一 个 张 量 out ， 包含 输入 矩阵 (2D 张 量 ) 的 下 三 角 部 分 ， out 其 余部 分 被 设 为 o 。 这 里 所 
说 的 下 三 角 部 分 为 矩阵 指定 对 角 线 diagonal 之 上 的 元 素 。 
参数 k 控制 对 角 线 : 


e k =0, 主 对 角 线 
。 k > 0, 主 对 角 线 之 上 
。 k «0, 主 对 角 线 之 下 


参数 : 


e input (Tensor) — 输入 张 量 


e k (int, optional) 一 指定 对 角 线 


e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> a = torch.randn(3,3) 
>>> a 


13225 773042 1.4573 
OEA OS e oR] 
1.2469 0.0064 -1.6250 
[torch.FloatTensor of size 3x3] 


>>> torch.tril(a) 


1.3225 070000 20.0000 
2073052 -9-3111 9.0000 
1.2469 20.0064 -1.6250 
[torch.FloatTensor of size 3x3] 


>>> torch.tril(a, k=1) 


1.3225 1.7304 20.0000 
2023952250: 31131 “OF 1809 
1.2469 0.0064 -1.6250 
[torch.FloatTensor of size 3x3] 


>>> torch.tril(a, k=-1) 


0.0000 0.0000 0.0000 
-0.3052 20.0000 20.0000 
1.2469 20.0064 20.0000 
[torch.FloatTensor of size 3x3] 


torch.triu 


返回 一 个 张 量 ， 包 含 输入 矩阵 (2D 张 量 ) 的 上 三 角 部 分 ， 
角 部 分 为 矩阵 指定 对 角 线 diagonal 之 上 的 元 素 。 


torch.triu(input, k=0, outzNone) > Tensor 


参数 k 控制 对 角 线 : 


2 


e k 20, £5 
。 k > 0, 主 对 角 线 之 上 
e k <0, 主 对 角 线 之 下 


参数 : 


e input (Tensor) — 输入 张 量 
e k (int, optional) 一 指定 对 角 线 


e out (Tensor, optional) — 输出 张 量 


例子 : 


其 


FN 


余部 分 被 设 为 o 。 这 里 所 说 的 上 三 


>>> a = torch.randn(3,3) 
>>> a 


1:3225 1.7304 374573 
20:3052 -2073111 -01 1809 
1.2469 0.0064 -1.6250 
[torch.FloatTensor of size 3x3] 


>>> torch.triu(a) 


1.3225 1.7304 1.4573 
9.0000 -0.3111 -0.1809 
0.0000 20.0000 -1.6250 
[torch.FloatTensor of size 3x3] 


>>> torch.triu(a, k=1) 

0.0000 1.7304 1.4573 

0.0000 20.0000 -0.1809 

0.0000 0.0000 20.0000 
[torch.FloatTensor of size 3x3] 
>>> torch.triu(a, k=-1) 

4179225 1.7304 T4573 
202305250: 3:315 8-9:1809 


0.0000 0.0064 -1.6250 
[torch.FloatTensor of size 3x3] 


BLAS and LAPACK Operations 


torch.addbmm 


torch.addbmm(beta-i, mat, alpha-i, batchi, batch2, out-zNone) > Tensor 


对 两 个 批 batchi 和 batch2 内 存储 的 矩阵 进行 批 矩 阵 乘 操 作 ， 附 带 reduced add 步骤 ( P A 4E 
Fe 3 45 R28 I — 2E 38 dv) ^ 4E T mat 加 到 最 终结 果 。 batchi 和 patch2 都 为 包含 相同 数量 
矩阵 的 3 维 张 量 。 如 果 batchi 是 形 为 Mbvtimes n \times mAN) 的 张 量 ， batchi 是 形 为 Mbvtimes 
m \times p \) 的 张 量 ， 则 out 和 mat 的 形状 都 是 Mn \times p V > FP \ res=(beta x M)+ 
(alpha»x«sum(batch1 i(gbatch2 i,i=0,b)) Y) 


对 类 型 为 FloatTensor 或 DoubleTensor 的 输入 ， alpha and beta 必须 为 实数 ， 否 则 两 个 参 
数 须 为 整数 。 


参数 : 


e beta (Number, optional) 一 用 于 mat 的 乘 子 

e mat (Tensor) — 相 加 矩阵 

e alpha (Number, optional) — 用 于 \batch1 @ batch2 \) 的 乘 子 
e batch1 (Tensor) 一 $ —4t48 RZE Ie 

e batch2 (Tensor) — $ —4t48 RZE Ie 

e out (Tensor, optional) — 输出 张 量 


>>> M = torch.randn(3, 5) 

>>> batch1 = torch.randn(10, 3, 4) 
>>> batch2 = torch.randn(10, 4, 5) 
>>> torch.addbmm(M, batchi, batch2) 


:32501302 115007: 7.39102 0.1824 .-7.6892 

1.8265 6.0739 0.4589 -0.5641 -5.4283 
:9r3987 -0.1794 -1:2318 —-6:8841 -4.7239 
[torch.FloatTensor of size 3x5] 


torch.addmm 


torch.addmm(beta-i, mat, alpha-i, mati, mat2, out=None) > Tensor 


对 和 矩阵 mati 和 mat2 3t 4T4E E RIRN ^ 4ETE mat 加 到 最 终结 果 。 如 果 matı 是 一 个 Wn 
\times m \) 张 量 ，mat2 是 一 个 (m Mimes p \) 张 量 ， 那 么 out 和 mat 的 形状 为 Mn \times p 
y » alpha 和 beta 分 别 是 两 个 矩阵 \(mat1 @ mat2 emat \) 的 比例 因子 ， 即 ，\out= 
(beta* M)*(alpha»« mat1@mat2) V) 


对 类 型 为 FloatTensor 或 DoubleTensor 的 输入 ， beta and alpha 必须 为 实数 ， 否 则 两 个 参 
数 须 为 整数 。 


参数 : 


e beta (Number, optional) 一 用 于 mat 的 乘 子 

e mat (Tensor) 一 相 加 矩阵 

e alpha (Number, optional) 一 用 于 \(mat1 @ mat2 \) 的 乘 子 
e mat1 (Tensor) — 第 一 个 相 乘 矩阵 

e mat2 (Tensor) — 第 二 个 相 乘 矩阵 

e out (Tensor, optional) — 输出 张 量 


>>> M = torch.randn(2, 3) 

>>> mati = torch.randn(2, 3) 
>>> mat2 = torch.randn(3, 3) 
>>> torch.addmm(M, mati, mat2) 


202409595 1207031573561 
5.7674 -4.9760 2.7378 
[torch.FloatTensor of size 2x3] 


torch.addmv 


torch.addmv(beta-i, tensor, alpha-i, mat, vec, outzNone) > Tensor 


对 矩阵 mat 和 向 量 vec 对 进行 相 乘 操作 。 向 量 tensor 加 到 最 终结 果 。 如 果 mt 是 一 个 Wn 
\times m \) 维 矩阵 ” vec 是 一 个 \(m \) 维 向 量 ， 那么 out 和 mat 的 为 \(n \) 元 向 量 。 可 选 参 
数 alpha 和 beta 分 别 是 \mat* vec \) 和 \(mat\) 的 比例 因子 ， 即 ，\( out=(betaxtensor)+ 
(alpha* (mat@vec)) V) 


对 类 型 为 FloatTensor 或 DoubleTensor 的 输入 ， alpha and beta 必须 为 实数 ， 否 则 两 个 参数 
须 为 整数 。 


参数 : 


e beta (Number, optional) 一 用 于 mat 的 乘 子 

e mat (Tensor) 一 相 加 矩阵 

e alpha (Number, optional) 一 用 于 \(mat1 @ vec\) 的 乘 子 
e mat (Tensor) — 相 乘 矩阵 

e vec (Tensor) — 相 乘 向 量 

e out (Tensor, optional) — 输出 张 量 


>>> M = torch.randn(2) 

>>> mat = torch.randn(2, 3) 
>>> vec = torch.randn(3) 
>>> torch.addmv(M, mat, vec) 


2250939 
2820509 
[torch.FloatTensor of size 2] 


torch.addr 


torch.addr(beta-i, mat, alpha-i, veci, vec2, out-None) > Tensor 


对 向 量 veci 和 vec2 IAT Ik € fRdE E o EE mat 加 到 最 终结 果 。 如 果 veci 是 一 个 Wn 2E 
向 量 ， vec2 是 一 个 Mm \) 维 向 量 > 那么 矩阵 mat 的 形状 须 为 Mn \times m \) ° *[ i5 4 Jt beta 
和 alpha 分 别 是 两 个 矩阵 (mat V)fe (vec1 @ vec2 \) 的 比例 因子 ， 即 ，\M( resi-(beta:Mi)* 
(alpha *batch1ixbatch2i)V) 


对 类 型 为 FloatTensor 或 DoubleTensor 的 输入 ， alpha and beta 必须 为 实数 ， 否 则 两 个 参数 
须 为 整数 。 


参数 : 


e beta (Number, optional) 一 用 于 mat 的 乘 子 

e mat (Tensor) 一 相 加 矩阵 

e alpha (Number, optional) 一 用 于 两 向 量 \(vec1，vec2\) 外 积 的 乘 子 
e vec1 (Tensor) 一 第 一 个 相 乘 向 量 

e vec2 (Tensor) - 第 二 个 相 乘 向 量 

e out (Tensor, optional) — 输出 张 量 


>>> vec1 = torch.arange(1, 4) 
>>> vec2 = torch.arange(1, 3) 
>>> M = torch.zeros(3, 2) 

>>> torch.addr(M, veci, vec2) 


[torch.FloatTensor of size 3x2] 


torch.baddbmm 


torch.baddbmm(beta-i, mat, alpha-i, batchi1, batch2, out-zNone) > Tensor 


对 两 个 批 batchi 和 batch2 A É f 4E [E SE fTdICAE E SE SE TE ^ ETE mat 加 到 最 终结 果 。 
batchi fe batch2 都 为 包含 相同 数量 矩阵 的 3 维 张 量 。 如 果 batchi 是 形 为 \(b\times n Mimes 
m\) 的 张 量 ，pbatchi 是 形 为 \(b\times m \times p\) 的 张 量 ， 则 out 和 mat 的 形状 都 是 \(n 
\times p V) > FP X resi=(betax*k M_i)+(alphax*batch1_ixbatch2 i) V) 


对 类 型 为 FloatTensor 或 DoubleTensor 的 输入 ， alpha and beta 必须 为 实数 ， 否 则 两 个 参数 
须 为 整数 。 


参数 : 


e beta (Number, optional) 一 用 于 mat 的 乘 子 

mat (Tensor) 一 相 加 矩阵 

alpha (Number, optional) 一 用 于 \(batch1 @ batch2 \) 的 乘 子 
batch1 (Tensor) — 5$ —4it48 RHE Ie 

batch2 (Tensor) — # —4t48 RHE Ie 

e out (Tensor, optional) — 输出 张 量 


>>> M = torch.randn(10, 3, 5) 

>>> batchi = torch.randn(10, 3, 4) 

>>> batch2 = torch.randn(10, 4, 5) 

>>> torch.baddbmm(M, batchi, batch2).size() 
torch.Size([10, 3, 5]) 


torch.bmm 


torch.bmm(batchi, batch2, out-zNone) > Tensor 


对 存储 在 两 个 批 batch1 和 batch2 内 89 4E Fe 3t AT hee E Se de TE ° batchi 和 batch2 都 为 包含 
相同 数量 矩阵 的 3 维 张 量 。 如果 batchi 是 形 为 \(b\ltimes n \times m \) 的 张 量 ， batchi 是 形 为 \ 
(bXimes m \times p \) 的 张 量 ， 则 out 和 mat 的 形状 都 是 \(n \times p V) > FP X resz(beta:xxM)* 
(alpha*sum(batch1_i@batch2 i,i=0,b)) V) 


对 类 型 为 FloatTensor 或 DoubleTensor 的 输入 ， alpha and beta 必须 为 实数 ， 否 则 两 个 参 
数 须 为 整数 。 


参数 : 
e batch1 (Tensor) — $ —4t48 RZE Ie 


e batch2 (Tensor) — $ —4t48 RHE Ie 
e out (Tensor, optional) 一 输出 张 量 


>>> batch1 = torch.randn(10, 3, 4) 
>>> batch2 = torch.randn(10, 4, 5) 
>>> res = torch.bmm(batch1i, batch2) 
>>> res.size() 

torch.Size([10, 3, 5]) 


torch.btrifact 


torch.btrifact(A, infozNone) > Tensor, IntTensor 


返回 一 个 元 组 ， 包 含 LU 分 解 和 pivots 。 可 选 参数 info 决定 是 否 对 每 个 minibatch 样 本 进行 
分 解 。 info are from dgetrf and a non-zero value indicates an error occurred. 如 果 用 CUDA 
的 话 ， 这 个 值 来 自 于 CUBLAS > 否则 来 自 LAPACK。 


参数 : A (Tensor) — 待 分 解 张 


hd 


>>> A = torch.randn(2, 3, 3) 
>>> A LU = A.btrifact() 


torch.btrisolve 


torch.btrisolve(b, LU data, LU pivots) > Tensor 


返回 线性 方程 组 \( Ax = b \) 的 LU 解 。 
参数 : 


e b (Tensor) - RHS 张 量 . 
e LU data (Tensor) - Pivoted LU factorization of A from btrifact. 
e LU pivots (IntTensor) — LU 分 解 的 Pivots. 


例子 : 


>>> A = torch.randn(2, 3, 3) 
>>> b = torch.randn(2, 3) 
>>> A LU = torch.btrifact(A) 


>>> x = b.btrisolve(*A LU) 
>>> torch.norm(A.bmm(x.unsqueeze(2)) - b) 
6.664001874625056e-08 


torch.dot 


torch.dot(tensori, tensor2) > float 


计算 两 个 张 量 的 点 乘 (内 乘 ), 两 个 张 量 都 为 1-D AÈ. 


例子 : 


>>> torch.dot(torch.Tensor([2, 3]), torch.Tensor([2, 1])) 
7.0 


torch.eig 


torch.eig(a, eigenvectors-False, out-None) -> (Tensor, Tensor) 


计算 实 方 阵 a 的 特征 值 和 特征 向 量 
参数 : 


。 a (Tensor) 一 方 阵 ， 待 计算 其 特征 值 和 特征 向 量 

e eigenvectors (bool) 一 布尔 值 ， 如 果 True ， 则 同时 计算 特征 值 和 特征 向 量 ， 否 则 只 计算 
特征 值 。 

e out (tuple, optional) 一 输出 元 组 


返回 值 : 元 组 ， 包 括 : 


e e (Tensor): a 的 右 特 征 向 量 
e v (Tensor): 如 果 eigenvectors 为 True ， 则 为 包含 特征 向 量 的 张 量 ; 否则 为 空 张 量 


返回 值 类 型 : (Tensor, Tensor) 
torch.gels 
torch.gels(B, A, out=None) > Tensor 


对 形 如 \( m Nimes n 9495 4x48 IE a 计算 其 最 小 二 乘 和 最 小 范 数 问题 的 解 。 do XN m >= n 
V, gels 对 最 小 二 乘 问题 进行 求解 ， 即 : 


$$minimize \qquad ||AX - B|| F $$ 
如 果 \( m < nV, gels 求解 最 小 范 数 问 题 ， 即 : 
$$minimize \qquad || X || F \qquad subject \ to quad a uad b AX=B $$ 


返回 矩阵 \(X\) 的 前 \(n V) 行 包含 解 。 余 下 的 行 包含 以 下 残 差 信息 : 相应 列 从 第 n 行 开 始 计算 的 每 
列 的 欧式 距离 。 


注意 ; 返回 矩阵 总 是 被 转 置 ， 无 论 输 入 矩阵 的 原始 布局 如 何 ， 总 会 被 转 置 ; 即 ， 总 是 有 
stride (1, m) 而 不 是 (m, 1). 


参数 : 


e B (Tensor) 一 矩阵 B 
e A (Tensor) — ( m \times n 4E E 
e out (tuple, optional) 一 输出 元 组 


返回 值 : 元 组 ， 包 括 : 


e. X (Tensor): 最 小 二 乘 解 
e qr (Tensor): QR 分 解 的 细节 


返回 值 类 型 : (Tensor, Tensor) 


例子 : 

>>> A = torch.Tensor([[4i, 1, 1], 
[2, 3, 4], 
[3, 57 2], 
[4, 2, 5], 

T [5, 4, 3]]) 

>>> B = torch.Tensor([[-19, -3], 
[319 qp 
[44 39] 
[ 16, 16], 
[ 18, 16]]) 

>>> X, _ = torch.gels(B, A) 


»- X 

2.0000 1.0000 

1.0000 41.0000 

1.0000 2.0000 
[torch.FloatTensor of size 3x2] 


torch.geqrf 


torch.geqrf(input, out-zNone) -> (Tensor, Tensor) 


这 是 一 个 直接 调用 LAPACK 的 底层 函数 。 一 般 使 用 torch.qr() 


计算 输入 的 QR 分 解 ， 但 是 并 不 会 分 别 创建 Q,R 两 个 矩阵 ， 而 是 直接 调用 LAPACK 函数 
Rather, this directly calls the underlying LAPACK function ?geqrf which produces a 
sequence of 'elementary reflectors'. 


参考 LAPACK 文 档 获 取 更 详细 信息 。 
参数 : 


e input (Tensor) — 4 ^. 4E f 
e out (tuple, optional) — Æ 28 > 6&4 h 3K EÈ (Tensor, Tensor) 


torch.ger 


torch.ger(vec1, vec2, out=None) > Tensor 
计算 两 向 量 vec1 , vec2 的 张 量 积 。 如 果 veci 的 长 度 为 n , vec2 长 度 为 m ， 则 输出 out 应 
7] 76 den x m 的 矩阵 。 
参数 : 


e vec1 (Tensor) - 1D 输入 向 量 
e vec2 (Tensor) - 1D 输入 向 量 
e out (tuple, optional) — 输出 张 量 


例子 : 


>>> v1 = torch.arange(1, 5) 
>>> v2 = torch.arange(1, 4) 
>>> torch.ger(v1, v2) 


[torch.FloatTensor of size 4x3] 


torch.gesv 


torch.gesv(B, A, out=None) -> (Tensor, Tensor) 


X X, LU = torch.gesv(B, A) \)， 返 回 线性 方程 组 \(AX=B \) 的 解 。 


LU 包含 两 个 矩阵 L，U。A 须 为 非 奇异 方 阵 ， 如 果 A 是 一 个 M m \times m UAE e » B 是 \( m 
\times k 4E E > MILU 是 \( m Mimes m AERE > X29 N m Mimes k \)4E t 


参数 : 


e B (Tensor) - ( m Ximes k \)4E 14 
e A (Tensor) - ( m Mimes m \)4 IE 
e out (Tensor, optional) — "T 3t 34i H 4& EN( X Y) 


例子 : 


>>> A = torch.Tensor([[6.80, -2.11, 5.66, 5.97, 8.23], 

E Lao 9-3 390r o6 T AT EIOS] 
[-0.45, 2.58, -2.70, 90.27, 9.04], 
lev lou vie Cv vixit 

X [*9.67, *5.14, -7.26, 6.08, -6.87]])-t() 

>>> B = torch.Tensor([[4.02, £6.19, -8.22, -7.57, -3.03], 
[6 a00 8. 876/70 1175 99:2: 851] 

cus [9:817 1-430971 54155771 -8.61,1 9 8:99]]H]!9€() 

>>> X, LU = torch.gesv(B, A) 

>>> torch.dist(B, torch.mm(A, X)) 

9.250057093890353e-06 


torch.inverse 


torch.inverse(input, out-zNone) > Tensor 


对 方 阵 输 入 input Xf e 


注意 : Irrespective of the original strides, the returned matrix will be transposed, i.e. with 
strides (1, m) instead of (m, 1) 


参数 : 


e input (Tensor) — 输入 2 维 张 量 
e out (Tensor, optional) 一 输出 张 量 


例子 : 


torch 


>>> X = 
>>> X 


0.7800 
0.0045 
0.8350 
0.6280 
97897 
9.5235 
0.1048 
0.2616 
0.1655 
0.4370 
t 


>>> X = 
>>> y = 
>>> Z = 
2225 Z 


1.0000 
0.0000 
0.0000 
0.0000 
0.0000 
0.0000 
0.0000 

0.0000 
-0.0000 
-0.0000 


torch.rand(10, 10) 


cOOocoOoocccoccocccG 


e 


.2267 
.0425 
.7810 
.6016 
-0226 
.6119 
.0328 
. 3485 
«22:92 
.4695 
[torch.FloatTenso 


370000000000 


.7855 
22220 
.8526 
299357 
-2102 
16522 
.5734 
.4370 
26913 
.8333 


cOocococcoccoccococcooo 


of size 


torch.rand(10, 10) 
torch.inverse(x) 
torch.mm(x, y) 


cOoOcococcoccocococmoOGO 


. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 


[torch.FloatTensor 


2009050 
.0000 0. 
.0000 -0. 
2000 0I. 
.0000 -0 
.0000 -0 
.0000 -0 
Ror 
OE 
=S 


0000 -0 
0000 -0 
0000 -0 
of size 


.9479 
. 4626 
. 9364 
72936 
10198 
.3399 
.6318 
.5620 
.0093 
.1180 


.0000 


.0000 
.0000 
.0000 
.0000 
.0000 
.0000 -0 


okoko okoko Reko oko] 


10x10] 


0000 
0000 
0000 


OOOOPOOOO 


10x10] 


.5914 
-6210 
. 7504 
2792, 
.9415 
.3205 
.9802 
29201! 
.0178 
.4266 


. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 


©OOOOOOOOO©O 


OOOOPOOOOO 


"ZII 
.0207 
22719. 
2712. 
.9896 
29555 
.4458 
29295 
.3064 
.4161 


.0000 
.0000 
.0000 
.0000 
.0000 
.0000 
. 0000 
. 0000 
. 0000 
. 0000 


OOOOOOCOOOO 


. 4437 
. 6338 
.0694 
.0744 
.3528 
.8454 
20979 
.7693 
2675315 
.0699 


.0000 
.0000 
.0000 
.0000 
.0000 
.0000 
.0000 
.0000 
.0000 
.0000 


cococcccococcGoocco 


>>> torch.max(torch.abs(z - torch.eye(10))) # Max nonzero 
5.096662789583206e-07 


torch.mm 


torch.mm(mati, mat2, out-zNone) => Tensor 


29131 
27067. 
29999 
.2627 
29397. 
239792 
.3320 
.1807 
25101 
.4263 


.0000 
.0000 
.0000 
.0000 
.0000 
.0000 
.0000 
.0000 
.0000 
.0000 


cOoococcoccoccoccocococo 


-1289 
.6381 
.8516 
.6326 
.2074 
.4927 
.3701 
.0650 
.2561 
.8865 


.0000 
.0000 
.0000 
.0000 
.0000 
.0000 
.0000 
.0000 
.0000 
.0000 


okoko okok okcep COE CONG 


-1982 
.8196 
.3883 
29159 
.6980 
.6086 
.0909 
.8497 
.3396 
125708 


.0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 
. 0000 


EIE mati 和 mat2 进行 相 乘 。 如 果 mati 是 一 个 Mn \times m \) 张 量 ，mat2 是 一 个 \(m 
\times p V) 张 量 ， 将 会 输出 一 个 \(n\times p Y) 张 量 out ° 


参数 : 


e mat1 (Tensor) — 第 一 个 相 乘 矩阵 
e mat2 (Tensor) — 第 二 个 相 乘 矩阵 


e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> mati 
>>> mat2 


torch.randn(2, 3) 
torch.randn(3, 3) 
>>> torch.mm(mati, mat2) 
0.0519 -0.3304 1.2232 
4.3910 -5.1498 227515: 
[torch.FloatTensor of size 2x3] 
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torch.mv 


torch.mv(mat, vec, outzNone) > Tensor 


对 矩阵 mat 和 向 量 vec 进行 相 乘 。 如果 mat 是 一 个 \( n \times m \) 张 量 ” vec 是 一 个 \( m) 
元 1 维 张 量 ， 将 会 输出 一 个 \nN) 元 1 维 张 量 。 


参数 : 


。 mat (Tensor) — 相 乘 矩阵 
e vec (Tensor) - 相 乘 向 量 
e out (Tensor, optional) — 输出 张 量 


例子 : 


>>> mat = torch.randn(2, 3) 
>>> vec = torch.randn(3) 

>>> torch.mv(mat, vec) 
2220939 

2252959 

[torch.FloatTensor of size 2] 


torch.orgqr 


torch.orgqr() 


torch.ormqr 


torch.ormqr() 


torch.potrf 


torch.potrf() 


torch.potri 


torch.potri() 


torch.potrs 


torch.potrs() 


torch.pstrf 


torch.pstrf() 


torch.qr 


torch.qr(input, outzNone) -> (Tensor, Tensor) 
itd A EGORA : 返回 两 个 矩阵 qdNVW ,\\(r\)， 使 得 \(x=q*r\)， 这 里 \( q \) 是 一 个 半 
4E X AERE £j (rV) 是 一 个 上 三 角 矩 阵 
本 函数 返回 一 个 thin(reduced)QR 分 解 。 
注意 如 果 输 入 很 大 ， 可 能 可 能 会 丢失 精度 。 


注意 本 函数 依赖 于 你 的 LAPACK 实 现 ， 虽 然 总 能 返回 一 个 合法 的 分 解 ， 但 不 同 平台 可 能 得 到 
不 同 的 结果 。 


Irrespective of the original strides, the returned matrix q will be transposed, i.e. with strides 
(1, m) instead of (m, 1). 


参数 : 


e input (Tensor) — 输入 的 2 维 张 量 
e out (tuple, optional) 一 输出 元 组 tuple ， 包 含 Q 和 RR 


例子 : 


>>> a = torch.Tensor([[12, -51, 4], [6, 167, -68], [-4, 24, -41]]) 
>>> q, r = torch.qr(a) 
>> q 


-0.8571 0.3943 0.3314 
-0.4286 -0.9029 -0.0343 
0.2857 -0.1714 20.9429 
[torch.FloatTensor of size 3x3] 


2225 r 


-14.0000  -21.0000 14.0000 
0.0000 -175.0000 70.0000 
0.0000 0.0000 -35.0000 

[torch.FloatTensor of size 3x3] 


>>> torch.mm(q, r).round() 


125: E 

6 167.5:68 

-4 24 -41 
[torch.FloatTensor of size 3x3] 


>>> torch.mm(q.t(), q).round() 


al s) 
-Im at 
9 0 
C 


TH oo 


[torch.FloatTensor of size 3x3] 


torch.svd 


torch.svd(input, some-True, outzNone) -> (Tensor, Tensor, Tensor) 


XU, S, V = torch.svd(A) \) ° 返回 对 形 如 Mn Mimes m V)&3 £z 4E E A 进行 奇异 值 分 解 的 结果 ， 
使 得 (ASUSV'x Y) ° NU V) 形状 为 Mn Mimes n Y) > NS ) 形状 为 Mn \times m \) » NV) 形状 为 
Mm Mimes m V) 


some 代表 了 需要 计算 的 奇异 值 数 目 。 如 果 some-True , it computes some and some-False 
computes all. 


Irrespective of the original strides, the returned matrix U will be transposed, i.e. with strides 
(1, n) instead of (n, 1). 


参数 : 


e input (Tensor) — 输入 的 2 维 张 量 
e some (bool, optional) — 布尔 值 ， 控 制 需 计 算 的 奇异 值 数 目 
e out (tuple, optional) — 结果 tuple 


例子 : 


>>> a = torch.Tensor([[8.79, 6.11, -9.15, 9.57, -3.49, 9.84], 
[S930 6 091 27.99, 1.64,. 4.02, 9.15], 
[9.83, 5.04, 4.86, 8.83, 29.80, -8.99], 
[5.45, -0.27, 4.85, 0.74, 10.00, -6.02], 
€ [35136, 07.08, 3401, 45.807 4.27 "S5 31] Ee() 
>>> a 
8.7900 9.9300 9.8300 5.4500 3.1600 
6.1100 6.9100 5.0400 -0.2700 7.9800 
-9.1500 -7.9300 4.8600 4.8500 3.0100 
9.5700 1.6400 8.8300 0.7400 5.8000 
-3.4900 4.0200 9.8000 10.0000 4.2700 
9.8400 0.1500 -8.9900 -6.0200 -5.3100 


[torch.FloatTensor of size 6x5] 


>>> U, S, V - torch.svd(a) 
>>> u 


20799111072632 073554 
20139760 10.2438 -072224 — 
-0.0335 -0176003 074508 
70429/102362 -016859 
-0.4697 -0.3509 0.3874 158/7 -0.5183 
072934 2025763 -010209 197911-016526 
[torch.FloatTensor of size 6x5] 


.3143 0.2299 
.7£535 -0.3636 
.2334 -0.3055 
.3919 0.1649 


OOOOOO 


2225 8S 


271.4687 
22.6432 
8.5584 
5::9857 
2.0149 
[torch.FloatTensor of size 5] 


222 VM 


2022514 720791498:7-90:72606 1 013967/ -072180 
-0.3968 0.3587 0.7008 -0.4507 0.1402 
20.6922 0.2489 -072208 10725131075891 
-0.3662 -0.3686 0.3859 20.4342 -0.6265 
2024076 010980 -0.4932 076227 -074396 
[torch.FloatTensor of size 5x5] 


>>> torch.dist(a, torch.mm(torch.mm(u, torch.diag(s)), v.t())) 
8.934150226306685e-06 


torch.symeig 


torch.symeig(input, eigenvectors-False, upper-True, out=None) -> (Tensor, Tensor) 


Xe, V = torch.symeig(input))) 3& © X: xL £RAETE. input 的 特征 值 和 特征 向 量 。 


Vinputy de (VA) 为 (m Mimes ml) 4E RE > (e ) 是 一 个 \(m\) 维 向 量 。 此 函数 计算 intput 的 所 
有 特征 值 (和 特征 向 量 )， 使 得 input = V diag(e) V^) 

布尔 值 参 数 eigenvectors 规定 是 否 只 计算 特征 向 量 。 如 果 为 False ， 则 只 计算 特征 值 ; 若 设 
为 True ， 则 两 者 都 会 计算 。 因 为 输入 矩阵 \(input\) 是 对 称 的 ， 所 以 默认 只 需要 上 三 角 适 

阵 。 如 果 参 数 upper 为 False ， 下 三 角 短 阵 部 分 也 被 利用 。 


注意 : 不 管 原来 |rrespective of the original strides, the returned matrix V will be transposed, 
i.e. with strides (1, m) instead of (m, 1) 


参数 : 


e input (Tensor) — 输入 对 称 和 矩阵 

e eigenvectors (boolean, optional) — 布尔 值 (可 选 ) ， 控 制 是 否 计 算 特 征 向 量 

e upper (boolean, optional) — 布尔 值 (TŻ) ， 控 制 是 否 考 虑 上 三 角 或 下 三 角 区 域 
e out (tuple, optional) 一 输出 元 组 (Tensor, Tensor) 


例子 : 
>>> a = torch.Tensor([[ 1.96, 0.00， 0.90, 0.09, 0.00], 
[-6.49, 3.80, 0.00, 0.00, 0.00], 
[-0.47, -6.39, 4.17, 90.00, 0.00], 
[-7.20, 1.50, -1.51, 5.708, 90.090], 
[*0.65, .-8.94, 2.67, 1.89, 7.10] tO 


>>> e, v = torch.symeig(a, eigenvectors-True) 
>>> e 


-11.0656 
2652297 
0.8640 
8.8655 
16.0948 
[torch.FloatTensor of size 5] 


2225 VM 


-0.2981 -0.6075 20.4026 -0.3745 20.4896 
20.5078 -0.2880 -014066 -0.3572 -076053 
2070816. -073843 -0.6600 7975008. 0:399: 
-0.0036 -0.4467 20.4553 20.6204 -0.4564 
-0.8041 20.4480 0.1725 073108 20.1622 
[torch.FloatTensor of size 5x5] 


torch.trtrs 


torch.trtrs() 


torch.Tensor 


torch.Tensor 是 一 种 包含 单一 数据 类 型 元 素 的 多 维和 矩阵 。 


Torch 定 义 了 七 种 CPU tensor 类 型 和 人 和 八 种 GPU tensor 类 型 : 


Data tyoe CPU tensor GPU tensor 

32-bit floating point torch.FloatTensor torch.cuda.FloatTensor 
64-bit floating point torch.DoubleTensor torch.cuda.DoubleTensor 
16-bit floating point N/A torch.cuda.HalfTensor 
8-bit integer (unsigned) torch.ByteTensor torch.cuda.ByteTensor 
8-bit integer (signed) torch.CharTensor torch.cuda.CharTensor 
16-bit integer (signed) torch.ShortTensor torch.cuda.ShortTensor 
32-bit integer (signed) torch.IntTensor torch.cuda.IntTensor 
64-bit integer (signed) torch.LongTensor torch.cuda.LongTensor 


torch.Tensor 是 默认 的 tensor 类 型 ( torch.FlaotTensor ) 的 简称 9 


一 个 张 量 tensor 可 以 从 Python 的 list 或 序列 构建 : 


>>> torch.FloatTensor([[4, 2, 3], [4, 5, 6]]) 
1 2S 

456 

[torch.FloatTensor of size 2x3] 


一 个 空 张 量 tensor 可 以 通过 规定 其 大 小 来 构建 : 


>>> torch.IntTensor(2, 4).zero () 
0000 

00090 

[torch.IntTensor of size 2x4] 


可 以 用 python 的 索引 和 切片 来 获取 和 修改 一 个 张 量 tensor 中 的 内 容 : 


>>> x = torch.FloatTensor([[1, 2, 3], [4, 5, 6]]) 
>>> print(x[1][2]) 
0 


>>> x[0][1] = 8 
>>> print(x) 


[torch.FloatTensor of size 2x3] 


每 一 个 张 量 tensor 都 有 一 个 相应 的 torch.Storage 用 来 保存 其 数据 。 类 tensor 提 供 了 一 个 存储 
的 多 维 的 、 横 向 视图 ， 并 且 定 义 了 在 数值 运算 。 


| 注意 : 会 改变 tensor 的 函数 操作 会 用 一 个 下 划 线 后 Rs t 
如 ， torch.FloatTensor.abs eh 地 计算 绝对 值 ， 并 返回 改变 后 的 tensor ， 


而 tensor.FloatTensor.abs() m 会 在 一 个 新 的 tensor 中 计算 结果 。 


class torch.Tensor 

class torch.Tensor(*sizes) 
class torch.Tensor(size) 
class torch.Tensor(sequence) 
class torch.Tensor(ndarray) 
class torch.Tensor(tensor) 
class torch.Tensor(storage) 


根据 可 选择 的 大 小 和 数据 新 建 一 个 tensor。 如 果 没 有 提供 参数 ， 将 会 返回 一 个 空 的 零 维 张 
量 。 如 果 提 供 了 numpy.ndarray , torch.Tensor 或 torch.Storage ^? 将 会 返回 一 个 有 同样 参数 
的 tensor. 如 果 提 供 了 python 序 列 ， 将 会 从 序列 的 副本 创建 一 个 tensor。 


abs() — Tensor 


请 查看 torch. abs() 
abs () 一 Tensor 

abs() 的 in-place 运 算 形式 
acos() 一 Tensor 

请 查看 torch. acos() 
acos () 一 Tensor 
acos() 的 in-place 运 算 形 式 
add(value) 

请 查看 torch.add() 

add( value) 

add() 的 in-place 运 算 形式 
addbmm(betaz1, mat, alphaz1, batch1, batch2) 一 Tensor 


请 查看 torch. addbmm( ) 


addbmm( betaz1, mat, alphaz1, batch1, batch2) 一 Tensor 


addbmm() 的 in-place 运 算 形式 


addcdiv(valuez1, tensor1, tensor2) 一 Tensor 

请 查看 torch. addcdiv() 

addcdiv( valuez1, tensor1, tensor2) 一 Tensor 
addcdiv() 的 in-place 运 算 形式 

addcmul(valuez1, tensor1, tensor2) 一 Tensor 

请 查看 torch. addcmul() 

addcmul( valuez1, tensorí, tensor2) 一 Tensor 
addcmul() 的 in-place 运 算 形式 

addmm(betaz1, mat, alphaz1, mat1, mat2) 一 Tensor 
请 查看 torch. addmm( ) 

addmmf betaz1, mat, alpha-1, mat1, mat2) 一 Tensor 
addmm() 的 in-place 运 算 形式 

addmv(beta=1, tensor, alphaz1, mat, vec) — Tensor 
请 查看 torch.addmv() 

addmv(_beta=1, tensor, alpha=1, mat, vec) 一 Tensor 
addmv() 的 in-place 运 算 形式 

addr(betaz1, alphaz1, vec1, vec2) 一 Tensor 

请 查看 torch.addr() 

addr( betaz1, alphaz1, vecT, vec2) 一 Tensor 

addr() 的 in-place 运 算 形式 

apply( callable) 一 Tensor 

将 函数 callable 作用 于 tensor 中 每 一 个 元 素 ， 并 将 每 个 元 素 用 callable 函数 返回 值 替 代 。 


| 注意 : 该 函数 只 能 在 CPU tensor 中 使 用 ， 并 且 不 应 该 用 在 有 较 高 性 能 要 求 的 代码 块 。 


asin() — Tensor 


torch.Tensor 


请 查看 torch.asin() 
asin () 一 Tensor 

asin() 的 in-place 运 算 形式 
atan() 一 Tensor 


请 查看 torch.atan() 


atan2() 一 Tensor 


请 查看 torch.atan2() 


atan2 () — Tensor 


A 


atan2() 的 in-place 运 算 形式 

atan () 一 Tensor 

atan() 的 in-place 运 算 形式 

baddbmm(betaz1, alphaz1, batch1, batch2) — Tensor 
请 查看 torch.baddbmm() 

baddbmm(í( betaz1, alphaz1, batch1, batch2) 一 Tensor 
baddbmm() 的 in-place 运 算 形式 


bernoulli() 一 Tensor 


请 查看 torch. bernoulli() 


bernoulli () 一 Tensor 


bernoulli() 的 in-place 运 算 形式 
bmm(batch2) 一 Tensor 
请 查看 torch.bmm() 
byte() 一 Tensor 
将 tensor 改 为 byte 类 型 
bmm(median=0, sigma=1, *, generator-None) 一 Tensor 
将 tensor 中 元 素 用 柯 西 分 布 得 到 的 数值 填充 : 


109 


torch.Tensor 


$$ P(x)={\frac1 Wpi) ffrac sigma ((x-median)^2 + \sigma^2} 


$$ 


ceil() 一 Tensor 


请 查看 torchocerbk() 


ceil () 一 Tensor 


ceil() 的 in-place 运 算 形式 
char() 
将 tensor 元 素 改 为 char 类 型 


chunk(n chunks, dimz0) 一 Tensor 


~ 


将 tensor 分 割 为 tensor 元 组 . 请 查看 torch.chunk() 


clamp(min, max) 一 Tensor 


请 查看 torch.clamp() 


clamp( min, max) 一 Tensor 


clamp() 的 in-place 运 算 形式 


clone() 一 Tensor 


返回 与 原 tensor 有 相同 大 小 和 数据 类 型 的 tensor 


contiguous() — Tensor 


返回 一 个 内 存 连续 的 有 相同 数据 的 tensor， 如 果 原 tensor 内 存 连 续 则 返回 原 tensor 


copy( src, async-False) 一 Tensor 


将 src 中 的 元 素 复 制 到 tensor 中 并 返回 这 个 tensor。 两 个 tensor 应 该 有 相同 数目 的 元 
素 ， 可 以 是 不 同 的 数据 类 型 或 存储 在 不 同 的 设备 上 。 参数 : 


e src (Tensor)- 复 制 的 源 tensor 
e async (boo/)- 如 果 为 True 并 且 复 制 是 在 CPU 和 GPU 之 间 进 行 的 ， 则 复制 后 的 拷贝 可 
能 会 与 源 信息 异步 ， 对 于 其 他 类 型 的 复制 操作 则 该 参数 不 会 发 生 作用 。 


cos() — Tensor 


请 查看 torch.cos() 
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cos () 一 Tensor 
cos() 的 in-place 运 算 形式 
cosh() 一 Tensor 


请 查看 torch.cosh() 


cosh () 一 Tensor 


cosh() 的 in-place 运 算 形 式 
cpu() 一 Tensor 
如 果 在 CPU 上 没有 该 tensor， 则 会 返回 一 个 CPU 的 副本 


cross(other, dim--1) 一 Tensor 


请 查看 torch.cross() 


cuda(devicezNone, async-False) 


返回 此 对 象 在 CPU 内 存 中 的 一 个 副本 如 果 对 象 已 近 存 在 与 CUDA 存 储 中 并 且 在 正确 的 设备 
上 ， 则 不 会 进行 复制 并 返回 原始 对 象 。 


参数 : 


e device(inh- 目 的 GPU 的 id， 默 认为 当前 的 设备 。 
e async(booj)- 如 果 为 True 并 且 资 源 在 国定 内 存 中 ， 则 复制 的 副本 将 会 与 原始 数据 异步 。 否 
则 ， 该 参数 没有 意义 。 


cumprod(dim) 一 Tensor 


请 查看 torch.cumprod() 


cumsum(dim) 一 Tensor 


请 查看 torch.cumsum( ) 


data ptr() — int 


返回 tensor 第 一 个 元 素 的 地 址 


diag(diagonal-0) 一 Tensor 


请 查看 torch.diag() 


dim() int 


返回 tensor 的 维 数 


dist(other, p22) 一 Tensor 


请 查看 torch.dist() 


div(value) 
请 查看 torch.div() 


div( value) 


A 


div() 的 in-place 运 算 形 式 


dot(tensor2) — float 


请 查看 torch.dot() 


double() 


将 该 tensor 投 射 为 double 类 型 


eig(eigenvectors=False) -> (Tensor, Tensor) 


请 查看 torch.eig() 


element size() — int 
返回 单个 元 素 的 字 节 大 小 。 例 : 


>>> torch.FloatTensor().element size() 
4 

>>> torch.ByteTensor().element size() 
q 


eq(other) — Tensor 
请 查看 torch.eq() 


eq( other) 一 Tensor 
eq() 的 in-place 运 算 形 式 
equal(other) 一 bool 


请 查看 torch.equal() 


exp() 一 Tensor 


请 查看 torch.exp() 


exp () 一 Tensor 


exp() 的 in-place 运 算 形 式 


expand('sizes) 


返回 tensor 的 一 个 新 视图 ， 单 个 维度 扩大 为 更 大 的 尺寸 。tensor 也 可 以 扩大 为 更 高 维 ， 新 
增加 的 维度 将 附 在 前 面 。 扩 大 tensor 不 需要 分 配 新 内 存 ， 只 是 仅仅 新 建 一 个 tensor 的 视 
图 ， 其 中 通过 将 stride 设 为 0， 一 维 将 会 扩展 位 更 高 维 。 任 何 一 个 一 维 的 在 不 分 配 新 内 
存 情况 下 可 扩展 为 任意 的 数值 。 


A : 
e sizes(torch.Size or int...)- 需 要 扩展 的 大 小 


例 : 


>>> x = torch.Tensor([[1], [2], [3]]) 
>>> x.size() 

torch.Size([3, 1]) 

>>> x.expand(3, 4) 


al 
al 
22 
3 3 
torch.FloatTensor of size 3x4] 


expandas(_tensor) 


将 tensor 扩 展 为 参数 tensor 的 大 小 。 该 操作 等 效 与 : 


self.expand(tensor.size()) 


exponential( lambd-71, *, generator-None) $to$ Tensor 
将 该 tensor 用 指数 分 布 得 到 的 元 素 填充 : 
$$ P(x)= \lambda e^(- Nambda x) 


$$ 


fill( value) —^ Tensor 


将 该 tensor 用 指定 的 数值 填充 


float() 


将 tensor 投 射 为 float 类 型 


floor() — Tensor 


请 查看 torch.floor() 


floor () 一 Tensor 


floor() 的 in-place 运 算 形式 


fmod(divisor) 一 Tensor 


请 查看 torch.fmod() 


fmod( divisor) 一 Tensor 


fmod() 的 in-place 运 算 形式 
frac() 一 Tensor 
请 查看 torch.frac() 


frac () 一 Tensor 


A 


frac() 的 in-place 运 算 形式 


gather(dim, index) 一 Tensor 


请 查看 torch.gather() 


ge(other) 一 Tensor 
请 查看 torch.ge() 


ge( other) 一 Tensor 


二 A 


ge() 的 in-place 运 算 形式 


gels(A) — Tensor 


请 查看 torch.gels() 


geometric( p, *, generatorzNone) 一 Tensor 
将 该 tensor 用 几何 分 布 得 到 的 元 素 填充 : 

$$ P(X-k)- (1-p)^tk-1]p 

$$ 


geqrf() -> (Tensor, Tensor) 


请 查看 torch.geqrf() 


ger(vec2) 一 Tensor 


请 查看 torch.ger() 


gesv(A) 一 Tensor, Tensor 


请 查看 torch.gesv() 


gt(other) 一 Tensor 


请 查看 torch.gt() 


gt( other) 一 Tensor 


gt() 的 in-place 运 算 形式 


half() 


将 tensor 投 射 为 半 精 度 浮 点 类 型 


histc(binsz100, min=0, max-0) 一 Tensor 


请 查看 torch. histc() 


index(m) — Tensor 


用 一 个 二 进 制 的 掩 码 或 沿 着 一 个 给 定 的 维度 从 tensor 中 选取 元 
素 ° tensor.index(m) 与 tensor [m] 完全 相同 。 


参数 : 


e m(int or Byte Tensor or slice)- 用 来 选取 元 素 的 维度 或 掩 码 


indexadd(dim, index, tensor) 一 Tensor 


按 参 数 jndex 中 的 索引 数 确 定 的 顺序 ， 将 参数 tensor 中 的 元 素 加 到 原来 的 tensor 中 。 参 数 
tensor 的 尺寸 必须 严格 地 与 原 tensor 匹 配 ， 否 则 会 发 生 错 误 。 


数 : 


e dim(int)- 索 引 index 所 指向 的 维度 
e index(LongTenson)- 需 要 从 tensor 中 选取 的 指数 
e tensor(Tensor)- 含 有 相 加 元 素 的 tensor 


f]: 


>>> x - torch.Tensor([[1, 1, 1], [1, 1, 1], [1, 1, 1]1]) 
»»» t = torch.Tensor([[1, 2, 3], [4, 5, 6], [7, 8, 911) 
>>> index = torch.LongTensor([9, 2, 1]) 

>>> x.index add (0, index, t) 


[torch.FloatTensor of size 3x3] 


indexcopy(dim, index, tensor) — Tensor 


按 参 数 jndex 中 的 索引 数 确 定 的 顺序 ， 将 参数 tensor 中 的 元 素 复 制 到 原来 的 tensor 中 。 参 数 
tensor 的 尺寸 必须 严格 地 与 原 tensor 匹 配 ， 否 则 会 发 生 错误 。 


参数 : 


e dim (int)- 索 引 index 所 指向 的 维度 
e index (LongTensor)- 需 要 从 tensor 中 选取 的 指数 
e tensor (Tenson)- 含 有 被 复制 元 素 的 tensor 


fh]: 


>>> X torch.Tensor(3* 3) 

>>> t torch.Tensor([[t1, 2, 3], [4, 5, 6], [7, 8, 911) 
>>> index = torch.LongTensor([0, 2, 1]) 

>>> x.index copy (0, index, t) 


[torch.FloatTensor of size 3x3] 


indexfill(dim, index, val) 一 Tensor 
按 参 数 index 中 的 索引 数 确定 的 顺序 ， 将 原 tensor 用 参数 val 值 填充 。 
参数 : 


e dim (int)- 索 引 index 所 指向 的 维度 
e index (LongTensor)- & 51 
e val (Tensor)-?& 7t &* 4& 


f]: 


>>> x = torch.Tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]1]) 
>>> index = torch.LongTensor([0, 2]) 
>>> x.index fill (0, index, -1) 


[torch.FloatTensor of size 3x3] 


indexselect( dim, index) 一 Tensor 


请 查看 torch. index select() 


int() 
将 该 tensor 投 射 为 jnt 类 型 


inverse() 一 Tensor 


请 查看 torch.inverse() 


is contiguous() — bool 

如 果 该 tensor 在 内 存 中 是 连续 的 则 返回 True。 

is cuda 

is pinned() 

如 果 该 tensor 在 国定 内 内 存 中 则 返回 True 

isset to( tensor) 一 bool 

如 果 此 对 象 引 用 与 Torch C API 相 同 的 THTensor 对 象 作为 给 定 的 张 量 ， 则 返回 True » 
is signed() 

kthvalue(k, dim=None) -> (Tensor, LongTensor) 


请 查看 torch. kthvalue() 


le(other) 一 Tensor 


请 查看 torch.1le() 


le( other) 一 Tensor 
le() 的 in-place 运 算 形 式 
lerp(start, end, weight) 


请 查看 torch.lerp() 


lerp (start, end, weight) 一 Tensor 


A 


lerp() 的 in-place 运 算 形 式 


log() 一 Tensor 


请 查看 torch.log() 


loglp() 一 Tensor 


请 查看 torch.loglp() 


loglp () 一 Tensor 


loglp() 的 in-place 运 算 形式 


log_()— Tensor 


1og() 的 in-place 运 算 形 式 


lognormal(mwanz1, std=2, , gegneratorzNone") 


将 该 tensor 用 均值 为 $\mu$, 标 准 差 为 $\sigmag$ 的 对 数 正 态 分 布 得 到 的 元 素 填 充 。 要 注 
X mean 和 stav 是 基本 正 态 分 布 的 均值 和 标准 差 ， 不 是 返回 的 分 布 : 


$$ P(X)= \frac (1) (x \sigma \sqrt (2 \pi}}e^{- \frac ((Inx- \mu)^2} (2 sigma^2)) 


$$ 


long() 


将 tensor 投 射 为 long 类 型 


It(other) 一 Tensor 


请 查看 torch.l1t() 


It (other) — Tensor 


lt() 的 in-place 运 算 形式 


map (tensor, callable) 


将 callable 作用 于 本 tensor 和 参数 tensor 中 的 每 一 个 元 素 ， 并 将 结果 存放 在 本 tensor 
中 。 callable 应 该 有 下 列 标 志 : 


def callable(a, b) -> number 


maskedcopy(mask, source) 


将 mask 中 值 为 1 元 素 对 应 的 source 中 位 置 的 元 素 复 制 到 本 tensor 中 。 mask 应 该 有 和 本 
tensor 相 同 数目 的 元 素 ° source 中 元 素 的 个 数 最 少 为 mask 中 值 为 1 的 元 素 的 个 数 9 


参数 : 


e mask (ByteTensor)- 二 进 制 掩 码 
e source (Tenson)- 复 制 的 源 tensor 
注意 : mask 作用 于 self 自身 的 tensor， 而 不 是 参数 中 的 source ° 


maskedfill(mask, value) 


在 mask 值 为 1 的 位 置 处 用 value 填充 。 mask 的 元 素 个 数 需 和 本 tensor 相 同 ， 但 尺寸 可 
以 不 同 。 


参数 : 


e mask (ByteTensor)- 二 进 制 掩 码 
e value (Temson)- 用 来 填充 的 值 


masked select(mask) 一 Tensor 


请 查看 torch. masked select() 


max(dim-None) -> float or(Tensor, Tensor) 


请 查看 torch.max() 


mean(dim=None) -> float or(Tensor, Tensor) 


请 查看 torch.mean() 


median(dimz--1, value=None, indices=None) -> (Tensor, LongTensor) 


请 查看 torch.median() 


min(dim=None) -> float or(Tensor, Tensor) 


请 查看 torch.min() 


mm(mat2) 一 Tensor 


请 查看 torch.mm() 


mode(dim--1, value=None, indices=None) -> (Tensor, LongTensor) 


请 查看 torch.mode() 


mul(value) 一 Tensor 


请 查看 torch.mul() 


mul (value) 


mul() 的 in-place 运 算 形 式 


multinomial(num samples, replacement-False, , generator-None*) 一 
Tensor 


请 查看 torch. multinomial() 


mv(vec) — Tensor 


请 查 查看 torch.mv() 


narrow(dimension, start, length) — Te 


返回 一 个 本 tensor 经 过 缩小 后 的 tensor。 维 度 dim 缩小 范围 是 start 到 start«length ° 
原 tensor 与 返回 的 tensor 共 享 相同 的 底层 内 存 。 


参数 : 


。 dimension (int)- 需 要 缩小 的 维度 
o start (int)- 起 始 维度 
e length (int)- 


例 : 


>>> x - torch.Tensor([[1, 2, 3], [4, 5, 6], [7, 8, 911) 
>>> x.narrow(0, 0, 2) 

4210283 

4 5 6 

[torch.FloatTensor of size 2x3] 

>>> x.narrow(i, 1, 2) 


[torch.FloatTensor of size 3x2] 
ndimension() — int 
dim() 的 另 一 种 表示 。 


ne(other) 一 Tensor 


请 查 查看 torch.ne() 


ne (other) — Tensor 


ne() 的 in-place 运 算 形 式 


neg() 一 Tensor 


请 查 查看 torch.neg() 


neg_() 一 Tensor 


neg() 的 in-place 运 算 形式 


nelement() — int 


nume1( ) 8 5 一 种 表示 


new(args, *kwargs) 


构建 一 个 有 相同 数据 类 型 的 tensor 


nonezero() — LongTensor 


ih & & torch.nonezero() 


norm(p-72) — float 


请 查看 `torch.norm() 


normal (meanz-0, std-71, , gengeratorzNone") 


将 tensor 用 均值 为 mean 和 标准 差 为 std 的 正 态 分 布 填充 。 


numel() — int 


请 查看 numel() 


numpy()  ndarray 

将 该 tensor 以 NumPy 的 形式 返回 ndarray ， 两 者 共享 相同 的 底层 内 存 。 原 tensor 改 变 后 会 相应 
的 在 ndarray 有 反映 ， 反 之 也 一 样 。 

orgqr(input2) 一 Tensor 


请 查看 torch.orgqr() 


ormqr(input2, input3, left2True, transpose-False) 一 Tensor 


请 查看 torch.ormqr() 


permute(dims) 
将 tensor 的 维度 换 位 。 
参数 : 


e *dims (int..)- 换 位 顺序 


例 : 


>>> x = torch.randn(2, 3, 5) 
>>> x.size() 

torch.Size([2, 3, 5]) 

>>> x.permute(2, 0, 1).size() 
torch.Size([5, 2, 3]) 


pin memory() 
如 果 原 来 没有 在 固定 内 存 中 ， 则 将 tensor 复 制 到 固定 内 存 中 。 


potrf(upper=True) — Tensor 


请 查看 torch.potrf() 


potri(upperzTrue) 一 Tensor 


请 查看 torch. potri() 


potrs(input2, upper2True) 一 Tensor 


请 查看 torch.potrs() 
pow(exponent) 
请 查看 torch.pow( ) 


pow () 


A 


pow() 的 in-place 运 算 形式 

prod()) — float 

请 查看 torch.prod() 

pstrf(upperzTrue, tol=-1) -> (Tensor, IntTensor) 
请 查看 torch.pstrf() 

qr()-> (Tensor, IntTensor) 

请 查看 torch.qr() 


random(_from=0, to=None, *, generator-None) 


将 tensor 用 从 在 [from, to-1] 上 的 正 态 分 布 或 离散 正 态 分 布 取 样 值 进行 填充 。 如 果 没 有 明确 说 
明 ， 则 填充 值 仅 由 本 tensor 的 数据 类 型 限定 。 


reciprocal() 一 Tensor 


请 查看 torch. reciprocal() 


reciprocal () 一 Tensor 


4 


reciprocal() 的 in-place 运 算 形 式 


remainder(divisor) 一 Tensor 


请 查看 torch.remainder() 


remainder (divisor) — Tensor 


remainder() 的 in-place 运 算 形 式 
renorm(p, dim, maxnorm) — Tensor 
请 查看 torch.renorm() 


renorm (p, dim, maxnorm) — Tensor 


A 


renorm() 的 in-place 运 算 形 式 

repeat(*sizes) 

沿 着 指定 的 维度 重复 tensor。 不 同 于 expand() ， 本 函数 复制 的 是 tensor 中 的 数据 。 
参数 : 


e *sizes (torch. Size ot int...)- 沿 着 每 一 维 重 复 的 次 数 


例 : 
>>> x = torch.Tensor([1, 2, 3]) 
>>> x.repeat(4, 2) 
T 2S T2 
TRA e aA E 
2 I AE 
aaa E 2 


[torch.FloatTensor of size 4x6] 
>>> x.repeat(4, 2, 1).size() 
torch.Size([4, 2, 3]) 


resize(*sizes ) 


将 tensor 的 大 小 调整 为 指定 的 大 小 。 如 果 元 素 个 数 比 当前 的 内 存 大 小 大 ， 就 将 底层 存储 大 小 调 
整 为 与 新 元 素数 目 一 致 的 大 小 。 如 果 元 素 个 数 比 当前 内 存 小 ， 则 底层 存储 不 会 被 改变 。 原 来 
tensor 中 被 保存 下 来 的 元 素 将 保持 不 变 ， 但 新 内 存 将 不 会 被 初始 化 。 


参数 : 


e *sizes (torch.Size or int...)- 需 要 调整 的 大 小 


例 : 


>>> x - torch.Tensor([[1, 2], R, 4], [5, 611) 
>>> x.resize (2, 2) 

»» x 

1212 

3 4 

[torch.FloatTensor of size 2x2] 


resizeas(tensor) 


将 本 tensor 的 大 小 调整 为 与 参数 中 的 tensor 相 同 的 大 小 。 等 效 于 : 


self.resize (tensor.size()) 


round() — Tensor 


请 查看 torch. round() 


round () 一 Tensor 


round() 的 in-place 运 算 形 式 
rsqrt() 一 Tensor 
请 查看 torch.rsqrt() 


rsqrt () 一 Tensor 


4 


rsqrt() 的 in-place 运 算 形式 


scatter (input, dim, index, src) 一 Tensor 


将 src 中 的 所 有 值 按照 index 确定 的 索引 写 入 本 tensor 中 。 其 中 索引 是 根据 给 定 的 
dimension，dim 按 照 gather() 描述 的 规则 来 确定 。 


注意 ，index 的 值 必 须 是 在 0 到 (Self size(dim)-1)2. I8 > 
参数 : 


e input (Tensor)-?$tensor 

e dim (int)- & 2] $4 4& 

e index (LongTensor)- 散 射 元 素 的 索引 指数 
e src (Tensor or float)- 散 射 的 源 元 素 


f]: 


>>> x = torch.rand(2, 5) 
2225 X 


0.4319 20.6500 20.4080 20.8760 20.2355 
0.2609 20.4711 20.8486 0.8573 20.1029 
[torch.FloatTensor of size 2x5] 


>>> torch.zeros(3, 5).scatter (0, torch.LongTensor([[0, 1, 2, ©, 0], [2, 0, ©, 1, 2]]) 
TEX) 

0.4319 0.4711 0.8486 0.8760 0.2355 

0.0000 20.6500 20.0000 20.8573 20.0000 


0.2609 20.0000 20.4080 20.0000 20.1029 
[torch.FloatTensor of size 3x5] 


>>> Z = torch.zeros(2, 4).scatter (1, torch.LongTensor([[2], [3]]), 1.23) 
2225 Z 


0.0000 20.0000 1.2300 20.0000 


0.0000 0.0000 20.0000 1.2300 
[torch.FloatTensor of size 2x4] 


select(dim, index) — Tensor or number 


按照 index 中 选 定 的 维度 将 tensor 切 片 。 如 果 tensor 是 一 维 的 ， 则 返回 一 个 数字 。 否 则 ， 返 回 
给 定 维度 已 经 被 移 除 的 tensor 。 


e dim (int)- 切 片 的 维度 
e index (in)- 用 来 选取 的 索引 


FEX: select() 等 效 于 切片 。 例 如 ， tensor.select(0，index) 等 效 


F tensor[index] ? tensor.select(2, index) 等 效 于 tensor[:, 37, Indexi. 


set(sourcezNone, storage offset-0, size=None, stride-None) 


ik B JKJE PI Ro Ao bdfodE k otk tensor 是 一 个 tensor， 则 将 会 与 本 tensor 共 享 底层 内 
存 并 且 有 相同 的 大 小 和 步 长 。 改 变 一 个 tensor 中 的 元 素 将 会 反映 在 另 一 个 tensor。 如 
J& source 是 一 个 storage ， 则 将 设置 底层 内 存 ， 偏 移 量 ， 大 小 和 步 长 。 


参数 : 
e source (Tensor or Storage)- 用 到 的 tensor 或 内 存 
e storage offset (jnt)- 内 存 的 偏 移 量 


e size (torch.Size)- 需 要 的 大 小 ， 默 认为 源 tensor 的 大 小 。 
e stride(tuple)- 需 要 的 步 长 ， 上 默认 为 C 连 续 的 步 长 。 


sharememory() 


将 底层 内 存 移 到 共享 内 存 中 。 如 果 底 层 内 存 已 经 在 共享 内 存 中 是 将 不 进行 任何 操作 。 在 
共享 内 存 中 的 tensor 不 能 调整 大 小 。 


short() 


将 tensor 投 射 为 Short 类 型 。 


sigmoid() 一 Tensor 


请 查看 torch.sigmoid() 
sigmoid () 一 Tensor 
sidmoid() 的 in-place 运 算 形式 
sign() 一 Tensor 
请 查看 torch.sign() 
sign () 一 Tensor 
sign() 的 in-place 运 算 形式 
sin() 一 Tensor 
请 查看 torch.sin() 
sin () 一 Tensor 
sin() 的 in-place 运 算 形 式 
sinh() 一 Tensor 
请 查看 torch.sinh() 
sinh () 一 Tensor 
sinh() 的 in-place 运 算 形式 
size() 一 torch.Size 
返回 tensor 的 大 小 。 返 回 的 值 是 tuple 的 子 类 。 


f]: 


>>> torch.Tensor(3, 4, 5).size() 
torch.Size([3, 4, 5]) 


sort(dimzNone, descending-False) -> (Tensor, LongTensor) 


请 查看 torhc.sort() 


split(split size, dimz0) 


将 tensor 分 割 成 tensor 数 组 。 请 查看 torhc.split() 


sqrt() 一 Tensor 


请 查看 torch. sqrt() 


sqrt () ^ Tensor 
sqrt() 的 in-place 运 算 形式 


squeeze(dimzNone) — Tensor 


请 查看 torch. squeeze() 


squeeze( dimzNone) — Tensor 


squeeze() 的 in-place 运 算 形 式 


std() 一 float 


请 查看 torch.std() 


storage() 一 torch.Storage 


返回 底层 内 存 。 


storage offset() — int 


以 储存 元 素 的 个 数 的 形式 返回 tensor 在 地 城内 存 中 的 偏 移 量 。 例 : 


>>> x = torch.Tensor([1, 2, 3, 4, 5]) 
>>> x.storage offset() 

0 

>>> x[3:].storage offset() 

3 


classmethod() storage type() 
stride() 一 Tensor 


返回 tesnor 的 步 长 。 


sub(value, other) — Tensor 


从 tensor 中 抽取 一 个 标量 或 tensor。 如 果 value 和 other 都 是 给 定 的 ， 则 在 使 用 之 
前 other 的 每 一 个 元 素 都 会 被 value 缩放 o 


sub( x) 一 Tensor 
sub() 的 in-place 运 算 形式 
sum(dim-None) — Tensor 


请 查看 torch.sum() 


svd(somezTrue) -> (Tensor, Tensor, Tensor) 


请 查看 torch.svd() 


symeig( eigenvectors-False, upperzTrue) -> (Tensor, Tensor) 


请 查看 torch.symeig() 


t() ^ Tensor 


请 查看 torch.t() 


t() 一 Tensor 
t() 的 in-place 运 算 形式 
tan() 一 Tensor 
请 查看 torch.tan() 
tan () 一 Tensor 
tan() 的 in-place 运 算 形式 
tanh() 一 Tensor 
请 查看 torch.tanh() 
tanh () 一 Tensor 
tanh() 的 in-place 运 算 形式 


tolist() 


AE — ^-tensorf & & 9| & cm o 


topk(k, dimzNone, largest-True, sorted-True) -> (Tensor, LongTensor) 


请 查看 torch.topk() 


trace() — float 


请 查看 torch.trace() 


transpose(dim0, dim) 一 Tensor 


请 查看 torch. transpose() 


transpose(dim0, dim) 一 Tensor 


transpose() 的 in-place 运 算 形式 
tril(kz0) 一 Tensor 
请 查看 torch.tril() 


tril(. kz0) 一 Tensor 


A 


tril() 的 in-place 运 算 形式 


triu(kz0) 一 Tensor 


请 查看 torch.triu() 


triu(kz0) — Tensor 


triu() 的 in-place 运 算 形式 


trtrs(A, upper-True, transpose-False, unitriangular-False) -> (Tensor, 
Tensor) 


请 查看 torch.trtrs() 


trunc() 一 Tensor 


请 查看 torch.trunc() 


trunc() 一 Tensor 


trunc() 的 in-place 运 算 形 式 


type(new typezNone, async-False) 
将 对 象 投 为 指定 的 类 型 。 如 果 已 经 是 正确 的 类 型 ， 则 不 会 进行 复制 并 返回 原 对 象 。 
参数 : 


e new type (type or string)- 需 要 的 类 型 
e async (boo/)- 如 果 为 Trtue， 并 且 源 地 址 在 固定 内 存 中 ， 目 的 地 址 在 GPU 或 者 相反 ， 则 会 


typeas( tesnor) 


将 tensor 投 射 为 参数 给 定 tensor 类 型 并 返回 。 如 果 tensor 已 经 是 正确 的 类 型 则 不 会 执行 操 
作 。 等 效 于 : 


self.type(tensor.type()) 


小 


参数 : 
e tensor (Tensor): 有 所 需要 类 型 的 tensor 


unfold(dim, size, step) 一 Tensor 


返回 一 个 tensor， 其 中 含有 在 dim 维 tianchong 度 上 所 有 大 小 为 size 的 分 片 。 两 个 分 片 
之 间 的 步 长 为 step 。 如 果 sizedim 是 dim 维 度 的 原始 大 小 ， 则 在 返回 tensor 中 的 维度 dim 
大 小 是 (sizedim-size)/step+1 维度 大 小 的 附加 维度 将 附加 在 返回 的 tensor 中 。 


数 : 


e dim (int)- 需 要 展开 的 维度 
。 size (int)- 每 一 个 分 片 需要 展开 的 大 小 
e step (int)-28 48 2- H Z N $9 3b 


例 : 


>>> x = torch.arange(1, 8) 
>>> x 


ls 
2 
9 
4 
5 
6 
f 
t 


[torch.FloatTensor of size 7] 


>>> x.unfold(0, 2, 1) 


>~IOO 上 wm 和 


ak 
2 
3 
4 
5 
6 
[torch.FloatTensor of size 6x2] 
>>> x.unfold(0, 2, 2) 

a2 
3 4 
5 6 
torc 


[torch.FloatTensor of size 3x2] 


uniform(_from=0, to=1) — Tensor 


将 tensor 用 从 均匀 分 布 中 抽样 得 到 的 值 卉 充 。 


unsqueeze(dim) 


请 查看 torch. unsqueeze() 


unsqueeze( dim) — Tensor 


unsqueeze() 的 in-place 运 算 形式 


var() 


请 查看 torch.var() 


view(*args) — Tensor 


返回 一 个 有 相同 数据 但 大 小 不 同 的 tensor。 返回 的 tensor 必 须 有 与 原 tensor 相 同 的 数据 和 相同 
数目 的 元 素 ， 但 可 以 有 不 同 的 大 小 。 一 个 tensor 必 须 是 连续 的 contiguous() 才能 被 查看 。 


例 : 


>>> x = torch.randn(4, 4) 

>>> x.Ssize() 

torch.Size([4, 4]) 

>>> y = x.view(16) 

>>> y.size() 

torch.Size([16]) 

>>> Z = x.Vview(-1, 8) # the size -1 is inferred from other dimensions 
>>> Z.Ssize() 

torch.Size([2, 8]) 


viewas( tensor) 
返回 被 视 作 与 给 定 的 tensor 相 同 大 小 的 原 tensor。 FAT : 
self.view(tensor.size()) 


zero () 


用 0 填充 该 tensor 。 


torch.Storage 


一 个 torch.Storage 是 一 个 单一 数据 类 型 的 连续 一 维 数组 。 


每 个 torch.Tensor 都 有 一 个 对 应 的 、 相 同 数据 类 型 的 存储 。 


class torch.FloatStorage 


byte() 
将 此 存储 转 为 byte 类 型 
char() 


将 此 存储 转 为 char 类 型 


clone() 


返回 此 存储 的 一 个 副本 


copy. () 

cpu() 

如 果 当 前 此 存储 不 在 CPU 上 ， 则 返回 一 个 它 的 CPU 副本 
cuda(devicezNone, async-False) 


返回 此 对 象 在 CUDA 内 存 中 的 一 个 副本 。 
如 果 此 对 象 已 在 CUDA 内 存 中 且 在 正确 的 设备 上 ， 那 么 不 会 执行 复制 操作 ， 直 接 返 回 原 对 象 。 


参数 : 


e device (in!) - 目标 GPU 的 id 。 默 认 值 是 当前 设备 。 
e async (bool) -如 果 值 为 True， 且 源 在 锁定 内 存 中 ， 则 副本 相对 于 宿主 是 异步 的 。 否 则 此 
参数 不 起 效果 。 


data ptr() 


double() 


将 此 存储 转 为 double 类 型 


element size() 


fill () 

float() 

将 此 存储 转 为 float 类 型 
from_buffer() 
half() 

将 此 存储 转 为 half 类 型 
int() 

将 此 存储 转 为 int 类 型 
is cuda = False 
is pinned() 

is shared() 

is sparse - False 


long() 
将 此 存储 转 为 long 类 型 


new() 


pin memory() 


如 果 此 存储 当前 未 被 锁定 ， 则 将 它 复 制 到 锁定 内 存 中 。 
resize () 


sharememory() 


将 此 存储 移动 到 共享 内 存 中 。 

对 于 已 经 在 共享 内 存 中 的 存储 或 者 CUDA 存 储 ， 这 
间 共 享 。 共 享 内 存 中 的 存储 不 能 改变 大 小 。 

返回 : self 


Pu 
| 
uv 
d 


空 指令 ， 它 们 不 需要 移动 就 能 在 进程 


short() 


将 此 存储 转 为 short 类 型 


size() 


tolist() 


返回 一 个 包含 此 存储 中 元 素 的 列表 


type(new typezNone, async-False) 


将 此 对 象 转 为 指定 类 型 。 
如 果 已 经 是 正确 类 型 ， 不 会 执行 复制 操作 ， 直 接 返回 原 对 象 。 


参数 : 


。 new type (type or string) -需要 转 成 的 类 型 
e async (bool) -如 果 值 为 True， 且 源 在 锁定 内 存 中 而 目标 在 GPU 中 
制 操作 相对 于 宿主 异步 执行 。 否 则 此 参数 不 起 效果 。 


或 正好 相反 ， 则 复 





torch.nn 


Parameters 


class torch.nn.Parameter() 


variable 的 一 种 ， 常 被 用 于 模块 参数 ( module parameter ) ° 


Parameters 是 Variable 的 子 类 。 Paramenters 和 Modules 一 起 使 用 的 时 候 会 有 一 些 特 殊 的 
属性 ， 即 : 当 paramenters 赋值 给 module 的 属性 的 时 候 ， 他 会 自动 的 被 加 到 Module 的 参数 
列表 中 ( 即 : 会 出 现在 parameters() 和 迭代 器 中 )。 将 varibale 赋值 给 Module 属性 则 不 会 有 这 样 
的 影响 。 这 样 做 的 原因 是 : 我 们 有 时 候 会 需要 缓存 一 些 临时 的 状态 ( state ), 比如 : 模型 

中 RNN 的 最 后 一 个 隐 状 态 如 果 没 有 Parameter 这 个 类 的 话 ， 那么 这 些 临 时 变量 也 会 注册 成 


为 模型 变量 。 


variable 与 Parameter 的 另 一 个 不 同 之 处 在 于 ， Parameter 不 能 被 volatile (FP : 无 法 设 


置 volatile=True ) 而 且 黑 认 requires grad-True ? Variable 默认 requires grad-False ? 
参数 说 明 : 
e data (Tensor) - parameter tensor. 


e requires grad (bool, optional) 一 默认 为 True » Æ BP 的 过 程 中 会 对 其 求 微分 。 


Containers (EX) : 


class torch.nn.Module 
所 有 网 络 的 基 类 。 
你 的 模型 也 应 该 继承 这 个 类 。 


Modules 也 可 以 包含 其 它 Modules ,允许 使 用 树 结构 谋 入 他 们 。 你 可 以 将 子 模 块 赋值 给 模型 属 
小 o 


import torch.nn as nn 
import torch.nn.functional as F 


class Model(nn.Module): 
def atate (ES eC) 
super(Model, self). init () 
self.convi = nn.Conv2d(1, 20, 5)# submodule: Conv2d 
self.conv2 - nn.Conv2d(20, 20, 5) 


def forward(self, x): 
x = F.relu(self.convi(x)) 
return F.relu(self.conv2(x)) 


通过 上 面 方式 赋值 的 submodule 会 被 注册 。 当 调用 .cuda( ) 的 时 候 ， submodule 的 参数 也 会 
转换 为 cuda Tensor 。 


add module(name, module) 


将 一 个 child module 添加 到 当前 modle 9 被 添加 的 module 可 以 通过 name 属性 来 获取 。 
例 : 


import torch.nn as nn 
class Model(nn.Module): 
def init (self): 

super(Model, self). init () 

self.add module("conv", nn.Conv2d(i0, 20, 4)) 

4self.conv = nn.Conv2d(10, 20, 4) 和 上 面 这 个 增加 module 的 方式 等 价 
model = Model() 
print(model.conv) 


Conv2d(10, 20, kernel size-(4, 4), stride-(1, 1)) 


children() 


Returns an iterator over immediate children modules. 返回 当前 模型 子 模块 的 迭代 器 。 


ád 


import torch.nn as nn 
class Model(nn.Module): 
def init (self): 
super(Model, self). init () 
self.add module("conv", nn.Conv2d(10, 20, 4)) 


self.add module("convi", nn.Conv2d(20 ,10, 4)) 
model - Model() 


for sub module in model.children(): 
print(sub module) 


Conv2d(10, 20, kernel size-(4, 4), stride-(1, 1)) 
Conv2d(20, 10, kernel size-(4, 4), stride-(1, 1)) 


cpu(device idzNone) 


将 所 有 的 模型 参数 ( parameters ) 和 buffers 复制 到 cpu 
NOTE : 官方 文档 用 的 move， 但 我 觉 着 copy. 更 合理 。 
cuda(device_id=None) 
将 所 有 的 模型 参数 ( parameters ) 和 buffers 赋值 GPU 
参数 说 明 : 
e device id (int, optional) — 如 果 指 定 的 话 ， 所 有 的 模型 参数 都 会 复制 到 指定 的 设备 上 。 
double() 


将 parameters 和 buffers 的 数据 类 型 转换 成 double ? 


将 模 型 设 置 成 evaluation 模 式 
中 


仅仅 当 模 型 中 有 Dropout 和 BatchNorm 是 才 会 有 影响 。 


float() 


将 parameters 和 buffers 的 数据 类 型 转换 成 float ? 

forward(* input) 

定义 了 每 次 执行 的 计算 步 又。 在 所 有 的 子 类 中 都 需要 重 写 这 个 函数 。 
half() 


将 parameters 和 buffers 的 数据 类 型 转换 成 half 。 


load state dict(state dict) 


将 state dict 中 的 parameters 和 buffers 复制 到 此 module 和 它 的 后 代 中 ° state dict 中 
的 key 必须 和 model.state dict() 返回 的 key 一 致 。 wore : 用 来 加 载 模型 参数 。 


参数 说 明 : 
e state dict (dict) 一 保存 parameters 和 persistent buffers 的 字典 。 


modules() 


返回 一 个 包含 当前 模型 所 有 模块 的 迭代 器 。 


import torch.nn as nn 
class Model(nn.Module): 
def aiat (Sed 
super(Model, self). init () 
self.add module("conv", nn.Conv2d(i0, 20, 4)) 
self.add module("convi", nn.Conv2d(20 ,10, 4)) 
model - Model() 


for module in model.modules(): 
print(module) 


Model ( 
(conv): Conv2d(10, 20, kernel size-(4, 4), stride-(1, 1)) 
(convi): Conv2d(20, 10, kernel size-(4, 4), stride-(1, 1)) 


) 
Conv2d(10, 20, kernel size-(4, 4), stride-(1, 1)) 
Conv2d(20, 10, kernel size-(4, 4), stride-(1, 1)) 


可 以 看 出 ， modules() 返回 的 iterator P EA 子 模块 。 这 是 和 children() 的 不 同 。 


NOTE: 重复 的 模块 只 被 返回 一 次 ( children() 也 是 )。 在 下 面 的 例子 中 ，submodule 只 会 被 返 


回 一 次 : 


import torch.nn as nn 


class Model(nn.Module): 
def init (self): 
super(Model, self). init () 
submodule = nn.Conv2d(i10, 20, 4) 
self.add module("conv", submodule) 
self.add module("convi", submodule) 
model - Model() 


for module in model.modules(): 
print(module) 


Model ( 
(conv): Conv2d(10, 20, kernel size-(4, 4), stride-(1, 1)) 
(convi): Conv2d(10, 20, kernel size-(4, 4), stride-(1, 1)) 


) 
Conv2d(10, 20, kernel size-(4, 4), stride-(1, 1)) 


named children() 
返回 包含 模型 当前 子 模块 的 迭代 器 ， yield 模块 名 字 和 模块 本 身 。 


例子 : 


for name, module in model.named children(): 
if name in ['conv4', 'conv5']: 
print(module) 


named modules(memozNone, prefix2")[source] 


返回 包含 网 络 中 所 有 模块 的 迭代 器 ， yielding 模块 名 和 模块 本 身 ? 


SERE o 
HEX 


重复 的 模块 只 被 返回 一 次 ( children() 也 是 )。 在 下 面 的 例子 中 ，submodule 只 会 被 返回 一 次 。 


parameters(memo=None) 
返回 一 个 包含 模型 所 有 参数 的 迭代 器 。 
一 般 用 来 当 作 optimizer 的 参数 。 


例子 : 


for param in model.parameters(): 
print(type(param.data), param.size()) 


«class 'torch.FloatTensor'» (20L,) 
«class 'torch.FloatTensor'» (20L, 1L, 5L, 5L) 


register backward hook(hook) 
在 module 上 注册 一 个 bachward hook ° 


每 次 计算 module 的 inputs 的 梯度 的 时 候 ， 这 个 hook 会 被 调用 。 hook 应 该 拥有 下 面 


的 signature ? 


hook(module, grad input, grad output) -» Variable or None 


如 果 module 有 多 个 输入 输出 的 话 > ARZ grad input grad output 将 会 是 个 n4 s 
hook 不 应 该 修改 它 的 arguments ， 但 是 它 可 以 选择 性 的 返回 关于 输入 的 梯度 返回 的 梯 
度 在 后 后续 卖 的 计算 中 会 替代 grad input ? 


这 个 函数 返回 一 个 EA handle )。 它 有 一 个 方法 handle.remove() ， 可 以 用 这 个 方法 
将 hook 从 module 移 除 。 

register buffer(name, tensor) 

给 module 添加 一 个 persistent buffer ? 


persistent buffer 通 第 常 被 用 在 这 么 一 种 ， 情况 : 我 们 需要 保存 一 个 状态 ， 但 是 这 个 状态 不 能 
作成 为 模型 参数 。 例 如 : ，BatchNorm's running_mean 不 是 一 个 parameter , 但 是 它 也 是 需 
要 保存 的 状态 之 一 。 


Buffers 可 以 通过 注册 时 候 的 name 获取 。 
NOTE :我 们 可 以 用 buffer 保存 moving average 


例子 : 


self.register buffer('running mean', torch.zeros(num features)) 


self.running mean 


register forward hook(hook) 

在 module 上 注册 一 个 forward hook 9 每 次 调用 forward() 计算 输出 的 时 候 ， 这 个 hook 就 会 
被 调用 。 它 应 该 拥有 以 下 签名 : 

hook(module, input, output) -> None 


hook 不 应 该 修改 input 和 output 的 值 。 这 个 函数 返回 一 个 句柄 ( handle )。 它 有 一 个 方法 
handle.remove() ， 可 以 用 这 个 方法 将 hook 从 module 移 除 9 


register parameter(name, param) 
向 module 添加 parameter 


parameter 可 以 通过 注册 时 候 的 name 获取 。 


state dict(destinationzNone, prefix2")[source] 
返回 一 个 字典 ? 保存 着 module 的 所 有 状态 ( state ) 9 


parameters 和 persistent buffers 都 会 包含 在 字典 中 > 字典 的 key 就 


是 parameter 和 puffer 的 names 。 


例子 : 


Import torch 
from torch.autograd import Variable 
import torch.nn as nn 


class Model(nn.Module): 
def init- (self): 
super(Model, self). init () 
self.conv2 = nn.Linear(1, 2) 
self.vari = Variable(torch.rand([1])) 
self.par = nn.Parameter(torch.rand([1])) 
self.register buffer("buffer", torch.randn([2,3])) 


model - Model() 
print(model.state dict().keys()) 


odict keys(['par', 'buffer', 'conv2.weight', 'conv2.bias']) 


train(mmodezTrue) 
将 module 设置 为 training mode ° 


仅仅 当 模 型 中 有 Dropout 和 BatchNorm 是 才 会 有 影响 。 


zero grad() 


将 module 中 的 所 有 模型 参数 的 梯度 设置 为 0. 


class torch.nn.Sequential(* args) 


一 个 时 序 容器 。 modules 会 以 他 们 传 入 的 顺序 被 添加 到 容器 中 。 当 然 ， 也 可 以 传 入 一 


个 orderedDict 。 


为 了 更 容易 的 理解 如 何 使 用 sequential , 下面 给 出 了 一 个 例子 : 


# Example of using Sequential 
model = nn.Sequential( 
nn.Conv2d(1,20,5), 
nn.ReLU(), 
nn.Conv2d(20,64,5), 
nn.ReLU() 
usc "T 
4 Example of using Sequential with OrderedDict 
nene - nn. FREUEN Gr dere Dict di 
('convi', nn.Conv2d(1,20,5)), 
('relui', nn.ReLU()), 
('conv2', nn.Conv2d(20,64,5)), 
('relu2', nn.ReLU()) 
1) 


class torch.nn.ModuleList(modules-None)[source] 
将 submodules 保存 在 一 个 list vo 


ModuleList 可 以 像 一 般 的 Python list 一 样 被 索引 。 而 且 ModuleList 中 包含 的 modules 已 
经 被 正确 的 注册 ， 对 所 有 的 module method 可 见 


参数 说 明 : 


e modules (list, optional) 一 将 要 被 添加 到 MuduleList 中 的 modules 列表 


例子 : 
class MyModule(nn.Module): 
def init (self): 
super(MyModule, self). (init () 
self.linears = nn.ModuleList([nn.Linear(10, 10) for i in range(19)]) 





+ Modu Si an iterable, or be indexed using ints 
forare min ne linears): 

x = self.linears[i // 2](x) + 1(x) 
pe x 


append(module)[source] 


等 价 于 list 的 append() 


参数 说 明 : 


e module (nn.Module) — X append 的 module 


extend(modules)[source] 
等 价 于 list 的 extend() 方法 
参数 说 明 : 


e modules (list) — list of modules to append 


class torch.nn.ParameterList(parameters-None) 


将 submodules 保存 在 一 个 list 中 。 


ParameterList 可 以 像 一 般 的 Python list 一 样 被 索引 ° mE parameterList 中 包含 
的 parameters 已 经 被 正确 的 注册 ， 对 所 有 的 module method 可 见 。 


参数 说 明 : 
e modules (list, optional) — a list of nn.Parameter 


例子 : 


class MyModule(nn.Module): 
def 1 (self): 
super(MyModule, self). init () 
self.params = nn.ParameterList([nn.Parameter(torch.randn(10, 10)) for i in ran 


ge(19)]) 


def forward(self, x): 


for i, p in enumerate(self.params): 
X = self.params[i // 2].mm(x) + p.mm(x) 
return x 


append(parameter)[source] 
等 价 于 python list 的 append 方法 。 
参数 说 明 : 
e parameter (nn.Parameter) — parameter to append 
extend(parameters)[source] 
等 价 于 python list 的 extend 方法 。 
参数 说 明 : 


e parameters (list) — list of parameters to append 


卷 积 层 


class torch.nn.Conv1d(in channels, out channels, 
kernel size, stridez1, padding70, dilationz1, groups=1, 
bias-True) 


一 维 卷 积 层 ， 输 入 的 尺度 是 (N, C_in,L)， 输 出 尺度 ( NC outL. out) 的 计算 方式 : 


$$ out(Ni, C(outj))-bias(C (outj]) -sum^(C(in)-1)/k70)weight(C(out j),k)5igotimes 
input(N i,k) 


$$ 
说 明 


bigotimes : 表示 相关 系数 计算 

stride : 控制 相关 系数 的 计算 步 长 

dilation : 用 于 控制 内 核 点 之 间 的 距离 ， 详 细 描 述 在 这 里 

groups : 控制 输入 和 输出 之 间 的 连接 ， group=1 ， 输 出 是 所 有 的 输入 的 卷 积 ; group=2 ， 此 
时 相当 于 有 并 排 的 两 个 卷 积 层 ， 每 个 卷 积 层 计算 输入 通道 的 一 半 ， 并 且 产 生 的 输出 是 输出 通 
道 的 一 半 ， 随 后 将 这 两 个 输出 连接 起 来 。 


Parameters : 


e in channels( int ) 一 输入 信号 的 通道 

e out channels( int ) 一 卷 积 产生 的 通道 

e kerner size( int Or tuple ) - 卷 积 核 的 尺寸 

e stride( int Or tuple ，optional )- 卷 积 步 长 

e padding ( int Or tuple , optional )- 输入 的 每 一 条 边 补 充 0 的 层 数 
e dilation( int or tuple , optional") — 卷 积 核 元 素 之 间 的 间距 

e groups( int , optional ) — 从 输入 通道 到 输出 通道 的 阻塞 连接 数 

e bias( bool ，optional ) - 如 果 bias-True ， 添 加 偏 置 


shape: 

输入 : (N,C_in,L_in) 
输出 : (N,C_out,L_out) 
输入 输出 的 计算 方式 : 


$$L (out)-floor((L(in-2padding-dilation(kernerl size-1)-1)/stride- 1)$$ 


变量 : 
weight( tensor ) - 卷 积 的 权重 ， 大 小 是 ( out channels , in channels , kernel size ) 
bias( tensor ) - 卷 积 的 偏 置 系数 ， 大 小 是 ( out channel ) 


example: 


>>> m = nn.Convid(i6, 33, 3, stride-2) 
>>> input = autograd.Variable(torch.randn(20, 16, 50)) 
>>> output = m(input) 


class torch.nn.Conv2d(in channels, out channels, 
kernel size, stridez1, padding=0, dilationz1, groups=1, 
bias-True) 


二 维 卷 积 层 , 输入 的 尺度 是 (N, C_in,H,W)， 输 出 尺度 (N,C outH out W out) 的 计算 方式 : 


$$out(Ni, C(outj))-bias(C(outj]) *Àsum^(C(in)-1)/k-0j]weight(C(out j),k)bigotimes 
input(N i,k)$$ 


说 明 

bigotimes : 表示 二 维 的 相关 系数 计算 stride : 控制 相关 系数 的 计算 步 长 

dilation : 用 于 控制 内 核 点 之 间 的 距离 ， 详 细 描 述 在 这 里 

groups : 控制 输入 和 输出 之 间 的 连接 : group=1 ， 输 出 是 所 有 的 输入 的 卷 积 ; group=2 ， 此 
时 相当 于 有 并 排 的 两 个 卷 积 层 ， 每 个 卷 积 层 计算 输入 通道 的 一 半 ， 并 且 产 生 的 输出 是 输出 通 
道 的 一 半 ， 随 后 将 这 两 个 输出 连接 起 来 。 


参数 kernel size ， stride,padding ， dilation 也 可 以 是 一 个 int 的 数据 ， 此 时 卷 积 height 
和 width 值 相同 ;也 可 以 是 一 个 tuple 数组 ， tuple 的 第 一 维度 表示 height 的 数值 ，tuple 的 第 二 
维度 表示 width 的 数值 


Parameters : 


e in channels( int ) 一 输入 信号 的 通道 

e out channels( int ) 一 卷 积 产 生 的 通道 

e kerner size( int Or tuple ) - 卷 积 核 的 尺寸 

e stride( int Or tuple , optional ) - 卷 积 步 长 

e padding( int Or tuple , optional )- 输入 的 每 一 条 边 补充 0 的 层 数 
e dilation( int Or tuple , optional )— 卷 积 核 元 素 之 间 的 间距 

e groups( int , optional ) 一 从 输入 通道 到 输出 通道 的 阻塞 连接 数 

e bias( bool ，optional )- 如 果 bias-True ， 添 加 偏 置 


shape: 
input: (N,C_in,H_in,W in) 
output: (N,C out,H out, W out) 


$$H(/out]-floor((H(in)*2padding[O]-dilation[O(kernerl size[0]-1)-1)/stride[0]- 1)$$ 


$$W(outj-floor((W(in)*2padding[1]-dilation[1](kernerl size[1]-1)-1)/stride[1]* 1)$$ 


du 


LE: 
weight( tensor )- 卷 积 的 权重 ， 大 小 是 ( out channels , in channels , kernel size ) 
bias( tensor ) - 卷 积 的 偏 置 系数 ， 大 小 是 ( out channel ) 


example: 
>>> # With square kerne and equal stride 
>>> m = nn. conv2d(16, = Sp stride- 2) 
2»» H n ql kernels ar IneqL stride and with padding 
>>> m = nn. .Convad(16, 33, G, 557 stride= (2; E padding- (4, 25) 
>>> # non-Square els ai inequal ide and with padding and dilation 


>> m = nn. Conv2d(16, 33, (3, br E (272035) mS (4, 2), dilation-(3, 1)) 
>>> input = autograd.Variable(torch.randn(20, 16, 50, 100)) 
>>> Output = m(input) 


class torch.nn.Conv3d(in channels, out channels, 
kernel size, stridez1, padding70, dilationz1, groups=1, 
bias-True) 


三 维 卷 积 层 , 输入 的 尺度 是 (N, C_in,D,H,W)， 输 出 尺度 (N,C outD outH out, W out) 的 计 
算 方式 : 


$$out(Ni, C(outj))-bias(C(outj]) *sum^(C(in)-1)/k-0j]weight(C(out j},k)\bigotimes 
input(N. i,k)$$ 


说 明 

bigotimes : 表示 二 维 的 相关 系数 计算 stride : 控制 相关 系数 的 计算 步 长 

dilation : 用 于 控制 内 核 点 之 间 的 距离 ， 详 细 描 述 在 这 里 

groups : 控制 输入 和 输 di. 的 连接 : group=1 ， 输 ae NA Mn dO ; group-2 * X5 
时 相当 于 有 并 排 的 两 个 卷 积 层 ， 每 个 卷 积 层 计 算 输入 通道 的 一 半 ， 并 且 产 生 的 输出 是 输出 通 
道 的 一 半 ， 随 后 将 这 两 个 输 千 接 起 来 。 

参数 kernel size ， stride ， padding ， dilation 可 以 是 一 个 int 的 数据 - 卷 积 height 和 
Width 值 相同 ， 也 可 以 是 一 个 有 三 个 int 数据 的 tuple VM , hers 的 第 一 维度 表示 depth 的 
数值 tuple 的 第 二 维度 表示 height 的 数值 tuple 的 第 三 维度 表示 width 的 数值 


Parameters : 


e in channels( int ) 一 输入 信号 的 通道 

e out channels( int ) 一 卷 积 产 生 的 通道 

e kernel size( int or tuple ) - 卷 积 核 的 尺寸 

e stride( int Or tuple , optional ) - 卷 积 步 长 

e padding( int Or tuple , optional )- 输入 的 每 一 条 边 补充 0 的 层 数 
e dilation( int Or tuple , optional )— 卷 积 核 元 素 之 间 的 间距 

e groups( int , optional ) 一 从 输入 通道 到 输出 通道 的 阻塞 连接 数 

e bias( bool , optional )- 如 果 bias-True ， 添 加 偏 置 


shape: 
input : (N,C_in,D_in,H_in,W_in) 
output : (N,C_out,D_out,H_out, W _out) 


$$D(/outj-floor((D(in)*2padding[O]-dilation[O(kernerl size[0]-1)-1)/stride[0]- 1)$$ 
$$H(/out]-floor((H(in)*2padding[1]-dilation[2(kernerl size[1]-1)-1)/stride[1]1)$$ 


$$Wf(outj-floor((W(in)*2padding[2]-dilation[2(kernerl size[2]-1)-1)/stride[2]* 1)$$ 


bs 


ZR 
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e weight( tensor ) - 卷 积 的 权重 ，shape 是 ( out channels , in channels , kernel size J 
e bias( tensor ) - 卷 积 的 偏 置 系数 ，shape 是 ( out channel ) 


example: 
>>> Wi uare kernels and equal stride 
>> m = nn. y. Convad i6, t $, stride- 2) 
>>> # noi e ride 


>> m = nn. .Conv3d(16, E a xs ea P (2, 1, Pd pna (2782725995) 
>>> ip = = autograd.Variable(torch.randn(20, 16, 10, 50, 100)) 
>>> output = m(input) 


class torch.nn.ConvTranspose1d(in channels, 
out channels, kernel size, stridez1, padding=0， 
output paddingz0, groups=1, bias-True) 


1 维 的 解 卷 积 操作 ( transposed convolution operator ， 注 意 改 视 作 操作 可 视 作 解 卷 积 操作 ， 
但 并 不 是 莫 正 的 解 郑 积 操作 ) 该 模块 可 以 看 作 是 convid 相对 于 其 输入 的 梯度 ， 有 时 (但 不 正 
确 地 ) 被 称 为 解 卷 积 操作 。 


注意 
由 于 内 核 的 大 小 ， 输 入 的 最 后 的 一 些 列 的 数据 可 能 会 丢失 。 因 为 输入 和 输出 是 不 是 完全 的 互 
相关 。 因 此 ， 用 户 可 以 进行 适当 的 填充 (padding 操 作 ) ° 


参数 


e in_channels( int ) 一 输入 信号 的 通道 数 

e out channels( int ) 一 卷 积 产 生 的 通道 

e kernel size( int Or tuple ) - 卷 积 核 的 大 小 

e stride( int Or tuple ，optional )- 卷 积 步 长 

e padding( int Or tuple , optional ) - 输入 的 每 一 条 边 补充 0 的 层 数 

e output padding( int Or tuple , optional )- 输出 的 每 一 条 边 补充 0 的 层 数 
e dilation( int Or tuple ，optional ) AR 的 间距 

e groups( int , optional ) 一 从 输入 通道 到 输出 通道 的 阻塞 连接 数 


e bias( bool ，optional ) - 如 果 bias=True ， 添 加 偏 置 


shape: 
输入 : (N,C_in,L_in) 
输出 : (N,C_out,L_out) 


$$L (out)-(L(in)-1)stride-2padding-*kernel size-*output padding$$ 


b 
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e weight( tensor ) - 卷 积 的 权重 ， 大 小 是 ( in channels , in channels , kernel size ) 
e bias( tensor ) - 卷 积 的 偏 置 系数 ， 大 小 是 ( out_channel ) 


class torch.nn.ConvTranspose2d(in channels, 
out channels, kernel size, stridez1, padding=0， 
output paddingz0, groups=1, bias-True) 


2 维 的 转 置 卷 积 操作 ( transposed convolution operator ? 注意 改 视 作 操作 可 视 作 解 卷 积 操 
作 ， 但 并 不 是 丨 正 的 解 卷 积 操作 ) 该 模块 可 以 看 作 是 conv2d 相对 于 其 输入 的 梯度 ， 有 时 (但 
不 正确 地 ) 被 称 为 解 卷 积 操作 。 


说 明 


stride : 控制 相关 系数 的 计算 步 长 

dilation : 用 于 控制 内 核 点 之 间 的 距离 ， 详 细 描 述 在 这 里 

groups : 控制 输入 和 输出 之 间 的 连接 : groupci c 44 es ; group=2 ， 此 

ibi 当 于 有 并 排 的 两 个 卷 积 层 ， 每 个 卷 积 层 计算 输入 通道 的 一 半 ， 并 且 产 生 的 输出 是 输出 通 
道 的 一 半 ， 随 后 将 这 两 个 输出 连接 起 来 。 


参数 kernel size ? stride ? padding °’ dilation 数据 类 型 : 可 以 是 一 个 int 类 型 的 数 
据 ， 此 时 卷 积 height 和 width 值 相同 ; 也 可 以 是 一 个 tuple 数组 (包含 来 两 个 int 类 型 的 数 
W) ， 第 一 个 int 数据 表示 height 的 数值 ,第 二 个 int 类 型 的 数据 表示 width 的 数值 


注意 
由 于 内 核 的 大 小 ， 输 入 的 最 后 
相关 。 因 此 ， 用 户 可 以 进行 适 


的 一 些 列 的 数据 可 能 会 丢失 。 因 为 输入 和 输出 是 不 是 完全 的 互 
当 的 填充 ( padding 操作 ) E 


参数 : 


e in_channels( int ) 一 输入 信号 的 通道 数 

e out channels( int ) 一 卷 积 产生 的 通道 数 

e kerner size( int Or tuple ) - 卷 积 核 的 大 小 

e stride( int Or tuple , optional ) - 卷 积 步 长 

e padding( int Or tuple , optional )- 输入 的 每 一 条 边 补充 0 的 层 

e output padding( int Or tuple , optional )- 输 c E 


e dilation( int Or tuple , optional )- 卷 积 核 元 素 之 间 的 间距 
e groups( int , optional ) 一 从 输入 通道 到 输出 通道 的 阻塞 连接 数 
e bias( bool , optional )- 如 果 bias=True ， 添 加 偏 置 


shape: 
输入 : (N,C inH in^ W in) 
输出 : (N,C. out,H out, W out) 


$$H(out]-(H(in)-1)stride[0]-2padding[O0]*kernel size[0]*output padding[0]$$ 


$$W(out)-(Wtin)-1)stride[1]-2padding[1]*kernel size[1]-output padding[1]$$ 


b 
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e Weight( tensor ) - 卷 积 的 权重 ， 大 小 是 ( in channels , in channels , kernel size ) 
e bias( tensor ) - 卷 积 的 偏 置 系数 ， 大 小 是 ( out channel ) 


Example 
>>> | Men square kernels and equal stride 
>>> m - nn. .ConvTranspose2d(16, 33, 37 stride-2) 
>>> # non-square k els and unequal stride and with padd 


>> m = nn. ieunviranspuse2d (o; 33, (3, 5), stride-(2, i PR (4, 2)) 
>>> input = autograd.Variable(torch.randn(20, 16, 50, 100)) 

>>> aa = PA) 

>>> | itput sıze can be also SpeciT ied as an al "gument 

>>> J = autograd. Variable(torch. randn(1, 16, 12, 12)) 

>>> downsample = nn.Conv2d(16, 16, 3, stride-2, padding-i) 

>>> upsample = nn.ConvTranspose2d(16, 16, 3, stride-2, padding-i) 
>>> h = downsample(input) 

>>> h.size() 

torch.Size([1, 16, 6, 6]) 

>>> output = upsample(h, output size-input.size()) 

>>> Ooutput.size() 

torch.Size([1, 16, 12, 12]) 


torch.nn.ConvTranspose3d(in channels, out channels, 
kernel size, stridez1, padding=0, output paddingz0, 
groups=1, bias-True) 


3 维 的 转 置 卷 积 操作 ( transposed convolution operator ， 注 意 改 视 作 操作 可 视 作 解 卷 积 操 
作 ， RE 转 置 卷 积 操作 将 每 个 输入 值 和 一 个 可 学 习 权 重 的 卷 积 核 相 
乘 ， 输 出 所 有 输入 通道 的 求 和 


该 模块 可 以 看 作 是 conv3d 相对 于 其 输入 的 梯度 ， 有 时 (但 不 正确 地 ) 被 称 为 解 卷 积 操作 。 
说 明 


stride : 控制 相关 系数 的 计算 步 长 
dilation : 用 于 控制 内 核 点 之 间 的 距离 ， 详 细 描 述 在 这 里 
groups : 控制 输入 和 输出 之 间 的 连接 : group=1 ， 输 出 是 所 有 的 输入 的 卷 积 ; group=2 ， 此 


时 相 ee ， 每 个 卷 积 层 计算 输入 通道 的 一 半 ， 并 且 产 生 的 输出 是 输出 通 
道 的 一 半 ， 随 后 将 这 两 个 输出 连接 起 来 。 


参数 kernel\ size ， stride , padding ， dilation 数据 类 型 : 一 个 int 类 型 的 数据 ， 此 时 
卷 积 height 和 width 值 相 同 ; 也 可 以 是 一 个 tuple 数组 (包含 来 两 个 int 类 型 的 数据 ) ， 第 一 
个 int 数据 表示 height 的 数值 ，tuple 的 第 二 个 int 类 型 的 数据 表示 width 的 数值 


注意 
由 于 内 核 的 大 小 ， 输 入 的 最 后 的 一 些 列 的 数据 可 能 会 丢失 。 因 为 输入 和 输出 是 不 是 完全 的 互 
相关 。 因 此 ， 用 户 可 以 进行 适当 的 填充 (padding 操 作 ) 。 


参数 : 


e in_channels( int ) 一 输入 信号 的 通道 数 

e out channels( int ) 一 考 积 产生 的 通道 数 

e kernel size( int Or tuple ) - 卷 积 核 的 

e stride( int Or tuple , optional )- 卷 积 步 

e padding( int Or tuple , optional )- i aun 补充 0 的 层 

e output padding( int or tuple ，optional )- 输 ur 
e dilation( int Or tuple , optional )- 卷 积 核 元 素 之 间 的 间距 

e groups( int , optional ) 一 从 输入 通道 到 输出 通道 的 阻塞 连接 数 

e bias( bool ，optional )- 如 果 bias=True ， 添 加 偏 置 


shape: 
输入 : (N,C_in,H_in，W_in) 
输出 : (N,C_out,H_out,W_out) 


$$D(/out]-(D(in)-1)stride[0]-2padding[O0]*kernel size[0]*output padding[0]$$ 
$$H(out]-(H(in)-1)stride[1]-2padding[1]*kernel size[1]*output padding[0]$$ 


$$W(out)-(Wtin)-1)stride[2]-2padding[2]* kernel size[2]* output padding[2]$$ 


b 
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e weight( tensor ) - 卷 积 的 权重 ， 大 小 是 ( in channels , in channels , kernel size ) 
e bias( tensor ) - 卷 积 的 偏 置 系数 ， 大 小 是 ( out channel ) 


Example 
>>> # With square kernels and equal stride 
>>> m = nn.ConvTranspose3d(16, 33, 3, stride-2) 
>>> # non-square kernels and unequal stride and with padding 


>>> m = nn.Conv3d(16, 33, (3, 5, 2), stride-(2, 1, 1), padding-(0, 4, 2)) 
>>> input = autograd.Variable(torch.randn(20, 16, 10, 50, 100)) 
>>> output = m(input) 


池 化 层 


class torch.nn.MaxPool1d(kernel_size, stride=None, 
padding=0, dilationz1, return indices-False, 
ceil mode-False) 


对 于 输入 信号 的 输入 通道 ， 提 供 1 维 最 大 池 化 〈 max pooling ) 操作 
如 果 输 入 的 大 小 是 (N,C,L)， 那 么 输出 的 大 小 是 (N,C,L_out) 的 计算 方式 是 : 
$$out(N/, C_j,k)=max™{kernel_size-1}{m=0}input(N_{i},C_j,stride*k+m)$$ 


如 果 padding 不 是 0， 会 在 输入 的 每 一 边 添加 相应 数目 0 
dilation 用 于 控制 内 核 点 之 间 的 距离 ， 详 细 描 述 在 这 里 


参数 : 


e kernel size( int or tuple )- max pooling 的 窗口 大 小 

e stride( int Or tuple , optional )- max pooling 的 窗口 移动 的 步 长 。 黑 认 值 
是 kernel_size 

e padding( int Or tuple , optional ) - 输入 的 每 一 条 边 补 充 0 的 层 数 

dilation( int Or tuple , optional ) 一 一 个 控制 窗口 中 元 素 步 幅 的 参数 

return indices - 如 果 等 于 True ， 会 返回 输出 最 大 值 的 序号 ， 对 于 上 采样 操作 会 有 帮助 

e ceil mode - 如 果 等 于 True ， 计 算 输出 信号 大 小 的 时 候 ， 会 使 用 向 上 取 整 ， 代 替 黑 认 的 
向 下 取 整 的 操作 


shape: 
输入 : (N,C_in,L_in) 
输出 : (N,C_out,L_out) 


$$L/out)-floor((L(in) + 2padding - dilation(kernel size - 1) - 1ystride + 1$$ 
example: 


>>> 0001 of size=3, stride=2 
>>> m = nn.MaxPoolid(3, stride-2) 

>>> input = autograd.Variable(torch.randn(20, 16, 50)) 
>>> output = m(input) 


class torch.nn.MaxPool2d(kernel_size, stride=None, 
padding=0, dilation=1, return_indices=False, 
ceil_mode=False) 


对 于 输入 信号 的 输入 通道 ， 提 供 2 维 最 大 池 化 ( max pooling ) 操作 


如 果 输 入 的 大 小 是 (N,C,H,W)， 那 么 输出 的 大 小 是 (N,C,H_outW_out) 和 池 化 窗口 大 小 (kH,kW) 
的 关系 是 : 


$$out(Ni, C j,k)»max^(kH-1)(m-0)max^(kW-1) 
(m-O0]input(N(i,C. j,stride[0]h--m, stride[1]w-n)$$ 


如 果 padding 不 是 0， 会 在 输入 的 每 一 边 添加 相应 数目 0 
dilation 用 于 控制 内 核 点 之 间 的 距离 ， 详 细 描 述 在 这 里 


参数 kernel size ， stride , padding ， dilation 数据 类 型 : 可 以 是 一 个 int 类 型 的 数 
据 ， 此 时 卷 积 height 和 width 值 相同 ; 也 可 以 是 一 个 tuple 数组 (包含 来 两 个 int 类 型 的 数据 ) > 
第 一 个 int 数据 表示 height 的 数值 tuple 的 第 二 个 int 类 型 的 数据 表示 width 的 数值 


参数 : 


e kernel size( int or tuple )- max pooling 的 窗口 大 小 

e stride( int Or tuple , optional )- max pooling 的 窗口 移动 的 步 长 。 黑 认 值 
是 kernel_size 

e padding( int Or tuple , optional )- 输入 的 每 一 条 边 补充 0 的 层 数 

e dilation( int Or tuple ，optional ) 一 一 个 控制 窗口 中 元 素 步 幅 的 参数 

e return indices - 如 果 等 于 True ， 会 返回 输出 最 大 值 的 序号 ， 对 于 上 采样 操作 会 有 帮助 

e ceil mode - 如 果 等 于 True ， 计 算 输出 信号 大 小 的 时 候 ， 会 使 用 向 上 取 整 ， 代 替 黑 认 的 
向 下 取 整 的 操作 


shape: 
输入 : (N,C,H (inl W in) 
输出 : (N,C,H out,W out) 


$$H(out]-floor((H(in) + 2padding[0] - dilation[Of(kernel size[0] - 1) - 1)/stride[0] + 1$$ 
$$W(outj-floor((W(in) + 2padding[1] - dilation[1](kernel size[1] - 1) - 1)/stride[1] + 1$$ 


example: 


>>> DOC nc ze-3, stride-2 

>> m = nn. .Maxpool2d(, ENS 2) 

>>> # pool are window 

>> m = nn. MaxPool2d((3, 2), stride-(2, 1)) 

>>> input = autograd.Variable(torch.randn(20, 16, 50, 32)) 
>>> output = m(input) 


class torch.nn.MaxPool3d(kernel size, stridezNone, 
padding=0, dilationz1, return indices-False, 
ceil mode-False) 


对 于 输入 信号 的 输入 通道 ， 提 供 3 维 最 大 池 化 (max pooling) 操作 


如 果 和 输入 的 大 小 是 (N,C,D,H,W)， 那 么 输出 的 大 小 是 (N,C,D,H_out,W_out) 和 池 化 窗口 大 小 
(kD,kH,kW) 的 关系 是 : 


$$out(Ni,C j,d,h,w)2»max^(kD-1)(m-0)max^(kH-1)fm-0jmax^(kW-1)(m-0)$$ 
$$input(N (iC. j,stride[0]k*d, stride[1]h-*m,stride[2]*w-n)$$ 


如 果 padding 不 是 0， 会 在 输入 的 每 一 边 添加 相应 数目 0 
dilation 用 于 控制 内 核 点 之 间 的 距离 ， 详 细 描 述 在 这 里 


参数 kernel size ， stride , padding ， dilation 数据 类 型 : 可 以 是 int 类 型 的 数据 ， 此 
时 卷 积 height 和 width 值 相 同 ; 也 可 以 是 一 个 tuple 数组 (包含 来 两 个 int 类 型 的 数据 ) ， 第 
一 个 int 数据 表示 height 的 数值 ， tuple 的 第 二 个 int 类 型 的 数据 表示 width 的 数值 


e kernel size( int or tuple )- max pooling 的 窗口 大 小 

e stride( int Or tuple , optional )- max pooling 的 窗口 移动 的 步 长 。 默 认 值 是 
kernel size 

e padding( int Or tuple , optional )- 输入 的 每 一 条 边 补充 0 的 层 数 

e dilation( int Or tuple , optional ) 一 一 个 控制 窗口 中 元 素 步 幅 的 参数 

e return indices - 如 果 等 于 True ， 会 返回 输出 最 大 值 的 序号 ， 对 于 上 采样 操作 会 有 帮助 

e ceil mode - 如 果 等 于 True ， 计 算 输出 信号 大 小 的 时 候 ， 会 使 用 向 上 取 整 ， 代 替 黑 认 的 
向 下 取 整 的 操作 


shape: 
输入 : (N,C,H in,W in) 
输出 : (N,C,H out,W out) 


$$D(/out]-floor((D(in) + 2padding[0] - dilation[Of(kernel size[0] - 1) - 1)/stride[0] + 1)$$ 
$$H(/out]-floor((H(in) + 2padding[1] - dilation[1](kernel size[0] - 1) - 1)/stride[1] + 1)$$ 
$$W(outj-floor((W(in) + 2padding[2] - dilation[2(kernel size[2] - 1) - 1)/stride[2] + 1)$$ 


example: 


>>> # pool f squa 

>>>m = = nn. MaxPoo130(3, stride= =2) 

>>> # pool 

>>> m = nn. oe 2, 2), stride-(2, 1, 2)) 

>>> EHE = - autograd.Variable(torch.randn(20, 16, 50,44, 31)) 
>>> output = m(input) 





class torch.nn.MaxUnpool1d(kernel size, stridezNone, padding=0) 


Maxpoolid 的 逆 过 程 ， 不 过 并 不 是 完全 的 逆 过 程 ， 因 为 在 maxpoolid 的 过 程 中 ， 一 些 最 大 值 的 
已 经 丢失 。 MaxUnpoolid 输入 MaxPoolid 的 输出 ? 包括 最 大 值 的 索引 ? 并 计算 所 
有 maxpoolid 过 程 中 非 最 大 值 被 设置 为 零 的 部 分 的 反 向 。 


注意 : 

MaxPoolid 可 以 将 多 个 输入 大 小 映射 到 相同 的 输出 大 小 。 因 此 ， 反 演 过 程 可 能 会 变 得 模 棱 两 
可 。 为 了 适应 这 一 点 ， 可 以 在 调用 中 将 输出 大 小 〈 output size ) 作为 额外 的 参数 传 入 。 A 
体 用 法 ， 请 参阅 下 面 的 输入 和 示例 


参数 : 


e kernel size( int or tuple )- max pooling 的 窗口 大 小 
e stride( int Or tuple , optional )- max pooling 的 窗口 移动 的 步 长 。 默 认 值 
是 kernel size 


e padding( int Or tuple , optional )- 输入 的 每 一 条 边 补 充 0 的 层 数 


输入 : 
input :需要 转换 的 tensor indices : Maxpool1d 的 索引 号 output size :一 个 指定 输出 大 小 


的 torch.Size 


shape: 
input : (N,C,H in) 
output :(N,C,H out) 


$$H(out]-(H(in)-1)stride[0]-2padding[O0]*kernel size[0]$$ 
也 可 以 使 用 output size 指定 输出 的 大 小 


Example : 


>>> pool = nn.MaxPoolid(2, stride-2, return indices-True) 
>>> unpool = nn.MaxUnpoolid(2, stride-2) 
>>> input = Variable(torch.Tensor([[[i, 2, 3, 4, 5, 6, 7, 8]]1)) 
>>> output, indices = pool(input) 
>>> unpool(output, indices) 

Variable containing: 

(Bop 

0 2 0 4 0 6 0 8 
[torch.FloatTensor of size 1x1x8] 


>>> # Example showcasing the use of output size 
>>> input = Variable(torch.Tensor([[[i, 2, 3, 4, 5, 6, 7, 8, 9]]])) 
>>> output, indices = pool(input) 
>>> unpool(output, indices, output size-input.size()) 
Variable containing: 
(9 ,.,.) = 
0 2 0 4 0 6 0 8 0 
[torch.FloatTensor of size ix1x9] 
>>> unpool(output, indices) 
Variable containing: 
(9 ,.,.) 7 
0 2 0 4 0 6 0 8 
[torch.FloatTensor of size 1x1x8] 


class torch.nn.MaxUnpool2d(kernel size, stride=None, padding=0) 


Maxpool2d 的 北 过 程 ， 不 过 并 不 是 完全 的 逆 过 程 ， 因 为 在 maxpool2d 的 过 程 中 ， 一 些 最 大 值 的 
已 经 丢失 。 MaxUnpool2d 的 输入 是 MaxPool2d 的 输出 ， 包 括 最 大 值 的 索引 ， 并 计算 所 

有 maxpool2d 过 程 中 非 最 大 值 被 设置 为 零 的 部 分 的 反 向 。 

注意 : 

MaxPool2d 可 以 将 多 个 输入 大 小 映射 到 相同 的 输出 大 小 。 因 此 ， 反 演 过 程 可 能 会 变 得 模 棱 两 
To 为 了 适应 这 一 点 ， 可 以 在 调用 中 将 输出 大 小 ( output size ) 作为 额外 的 参数 传 入 。 具 
体 用 法 ， 请 参阅 下 面 示例 


参数 : 


e kernel size( int or tuple )- max pooling 的 窗口 大 小 
e stride( int Or tuple , optional )- max pooling 的 窗口 移动 的 步 长 。 黑 认 值 
是 kernel_size 


e padding( int or tuple , optional ) - 输入 的 每 一 条 边 补 充 0 的 层 数 


输入 : 

Input :需要 转换 的 tensor 

indices : Maxpool1d 的 索引 号 

output size :一 个 指定 输出 大 小 的 torch.Size 


大 小 : 
input : (N,C,H in,W in) 
output :(N,C,H out,W out) 


$$H(out]-(H(in)-1)stride[0]-2padding[O0]*kernel size[0]$$ 
$$W(out)-(Win)-1)stride[1]-2padding[1]*kernel size[1]$$ 
也 可 以 使 用 output size 指定 输出 的 大 小 


Example : 


>>> pool = nn.MaxPool2d(2, stride-2, return indices-True) 
>>> unpool = nn.MaxUnpool2d(2, stride-2) 
>>> input = Variable(torch.Tensor([[[[ 1, 2, 3, 4], 
eh SG 
Eo cO E P 
TA [13, 14, 15, 16]]11)) 
>>> output, indices = pool(input) 
>>> unpool(output, indices) 
Variable containing: 
(0 ,0 pers) T 


[torch.FloatTensor of size 1x1x4x4] 


>>> # specify a different output size than input size 

>>> unpool(output, indices, output_size=torch.Size([1, 1, 5, 5])) 
Variable containing: 
(0,9 ,.,.)- 


0 0 0 9 0 
6 0 8 0 0 
0 0 0 14 0 
16 0 0 0 0 
0 0 9 9 0 


[torch.FloatTensor of size ix1x5x5] 


class torch.nn.MaxUnpool3d(kernel size, stridezNone, padding=0) 


Maxpool3d 的 逆 过 程 ， 不 过 并 不 是 完全 的 逆 过 程 ， 因 为 在 maxpool3d 的 过 程 中 ， 一 些 最 大 值 的 
已 经 丢失 。 Maxunpool3d 的 输入 就 是 Maxpool3d 的 输出 ， 包 括 最 大 值 的 索引 ， 并 计算 所 
有 maxpool3d 过 程 中 非 最 大 值 被 设置 为 零 的 部 分 的 反 向 。 


注意 : 

MaxPoolad 可 以 将 多 个 输入 大 小 映射 到 相同 的 输出 大 小 。 因 此 ， 反 演 过 程 可 能 会 变 得 模 棱 两 
可 。 为 了 适应 这 一 点 ， 可 以 在 调用 中 将 输出 大 小 ( output size ) 作为 额外 的 参数 传 入 。 具 体 
用 法 ， 请 参阅 下 面 的 输入 和 示例 


参数 : 


e kernel size( int or tuple )- Maxpooling 窗 口 大 小 
e stride( int Or tuple , optional )- max pooling 的 窗口 移动 的 步 长 。 默 认 值 
是 kernel size 


e padding( int Or tuple , optional )- 输入 的 每 一 条 边 补充 0 的 层 数 


输入 : 
Input :需要 转换 的 tensor 
indices : Maxpoolid 的 索引 序数 


output size :一 个 指定 输出 大 小 的 torch.Size 
大 小 : 


input : (N,C,D in,H in,W in) 
outpu t(N,C,D out,H out, W out) 


$$ \begin{aligned} Dfout)-(Df(in)-1)stride[0]-2padding[0]*kernel size[O]V 
Hfout)-(H(in)-1)stride[1]-2padding[O]*kernel size[1] Wfout}= 
(W(in)-1)stride[2]-2padding[2]* kernel size[2] 

\end{aligned} 


$$ 
也 可 以 使 用 output size 指定 输出 的 大 小 
Example : 


>>> # pool of square window of size-3, stride-2 

>>> pool = nn.MaxPool3d(3, stride-2, return indices-True) 

>>> unpool = nn.MaxUnpool3d(3, stride-2) 

>>> output, indices = pool(Variable(torch.randn(20, 16, 51, 33, 15))) 
>>> unpooled output = unpool(output, indices) 

>>> unpooled output.size() 

torch.Size([20, 16, 51, 33, 15]) 


class torch.nn.AvgPool1d(kernel size, stridezNone, 
paddingz0, ceil mode=False, count include pad-True) 


对 信号 的 输入 通道 ， 提 供 1 维 平均 池 化 (average pooling ) 输入 信号 的 大 小 (N,C,L)， 输 出 大 
小 (N,C,L_out) 和 池 化 窗口 大 小 k 的 关系 是 : 


$$0ut(Ni,C jJ)-1/k*isum^(kg(m-OJinput(N[i), C(j),stride*l«m)$$ 
如 果 padding 不 是 0， 会 在 输入 的 每 一 边 添加 相应 数目 0 


参数 : 


e kernel size( int or tuple )- 池 化 窗口 大 小 

e stride( int Or tuple , optional )- max pooling 的 窗口 移动 的 步 长 。 黑 认 值 
是 kernel_size 

e padding( int Or tuple , optional ) - 输入 的 每 一 条 边 补 充 0 的 层 数 

e dilation( int Or tuple , optional ) 一 一 个 控制 窗口 中 元 素 步 幅 的 参数 

e return indices - 如 果 等 于 True ， 会 返回 和 输出 最 大 值 的 序号 ， 对 于 上 采样 操作 会 有 帮助 

e ceil mode - 如 果 等 于 True ， 计 算 输出 信号 大 小 的 时 候 ， 会 使 用 向 上 取 整 ， 代 替 黑 认 的 
向 下 取 整 的 操作 


大 小 : 
input :(N,C,L_in) 
output :(N,C,L_out) 


$$L{out}=floor((L{in}+2*padding-kernel size)/stride+1)$$ 


Example: 


>>> pool with window of size-3, stride- 

>>> m = nn.AvgPoolid(3, stride-2) 

>>> m(Variable(torch.Tensor([[[1,2,3,4,5,6,7]]11))) 
Variable containing: 


(B = 
2 4 6 
[torch.FloatTensor of size ix1x3] 


class torch.nn.AvgPool2d(kernel size, stridezNone, 
paddingz0, ceil mode-zFalse, count include pad-True) 


对 信号 的 输入 通道 ， 提 供 2 维 的 平均 池 化 (average pooling ) 
输入 信号 的 大 小 (N,C,H,W)， 输 出 大 小 (N,C,H_out,W_out) 和 池 化 窗口 大 小 (kH,kW) 的 关系 是 : 


$$ out(Ni,C_j,h,w)=1(kHkW)\sum™{kH-1}4{m=0}sum™kW-1} 
(n-Ojinput(N(i,C. (j),stride[O]h--m, stride[1]w-n)$$ 


如 果 padding 不 是 0， 会 在 输入 的 每 一 边 添加 相应 数目 0 


参数 : 
e kernel size( int Or tuple )- 池 化 窗口 大 小 
e stride( int Or tuple , optional )- max pooling 的 窗口 移动 的 步 长 。 黑 认 值 
是 kernel size 
e padding( int Or tuple , optional )- 输入 的 每 一 条 边 补 充 0 的 层 数 
e dilation( int Or tuple , optional ) 一 一 个 控制 窗口 中 元 素 步 幅 的 参数 
e ceil mode - 如 果 等 于 True ， 计 算 输出 信号 大 小 的 时 候 ， 会 使 用 向 上 取 整 ， 代 替 黑 认 的 
向 下 取 整 的 操作 
e count include pad - 如 果 等 于 True ， 计 算 平 均 池 化 时 ， 将 包括 padding 填充 的 0 
shape : 


input : (N,C,H in,W in) 
output : (N,C,H out,W out) 


$$\begin{aligned} Hfout]-floor((H(in-2padding[O]-kernel size[O])/stride[0]-- 1) 
W[outj-floor((Wf(in)- 2padding[1]-kernel size[1])/stride[1]*1) vend(aligned) 


$$ 


Example: 


>>> m = nn.AvgPool2d((3, 2), stride=(2, 1)) 
>>> input = autograd.Variable(torch.randn(20, 16, 50, 32)) 
>>> output = m(input) 


class torch.nn.AvgPool3d(kernel size, stride=None) 


对 信号 的 输入 通道 ， 提 供 3 维 的 平均 池 化 ( average pooling ) 输入 信号 的 大 小 
(N,C,D,H,W)， 和 输出 大 小 (N,C,D_out,H_out,W_out) 和 池 化 窗口 大 小 (kD,kH,kW) 的 关系 是 : 


$$ \begin{aligned} out(Ni,C_j,d,h,w)=1/(kDkHkW)*\sum™{kD-14{k=0}sum™kH-1} 
{m=0}\sum^{kW-1Hn=0}input(N{i}, C{j},stride[0]d+k, stride[1]h+m,stride[2]*w+n) \end{aligned} 


$$ 如 果 padding 不 是 0， 会 在 输入 的 每 一 边 添加 相应 数目 0 
参数 : 


e kernel size( int or tuple )- 池 化 窗口 大 小 
e stride( int Or tuple , optional )- max pooling 的 窗口 移动 的 步 长 。 黑 认 值 


a " 
7E kernel size 


shape : 
输入 大 小 :(N,C,D_in,H_in,W in) 
输出 大 小 :(N,C,D_out,H_out,W_out) 


$$\begin{aligned} Dfout]-floor((D(in)-2padding[O]-kernel size[O])/stride[0]-- 1) 
H(out)-floor((H(in)* 2padding[1]-kernel size[1])/stride[1]- 1) 
Wfíoutj)-floor((W(in)2*padding[2]-kernel size[2])/stride[2]*1) 

VYend(aligned) 


$$ 


Example: 


>>> Jool of square window of Size=: 

>>> m = nn.AvgPool3d(3, stride-2) 

>>> # pool of non-square window 

>>> m = nn.AvgPool3d((3, 2, 2), stride-(2, 1, 2)) 

>>> input = autograd.Variable(torch.randn(20, 16, 50,44, 31)) 
>>> output = m(input) 


class torch.nn.FractionalMaxPool2d(kernel size, 

output size-zNone, output ratio-None, 

return indices-False, random samples-None) 

对 输入 的 信号 ， 提 供 2 维 的 分 数 最 大 化 池 化 操作 分 数 最 大 化 池 化 的 细节 请 阅读 论文 由 目标 输 
出 大 小 确定 的 随机 步 长 ,在 $kH*kW$ 区 域 进行 最 大 池 化 操作 。 输 出 特征 和 输入 特征 的 数量 相 
同 o 

参数 : 


e kernel size( int Or tuple )- 最 大 池 化 操作 时 的 窗口 大 小 。 可 以 是 一 个 数字 COR 


示 Kk*k 的 窗口 ) ， 也 可 以 是 一 个 元 组 ( kh*kw ) 

e output size - 输出 图 像 的 尺寸 。 可 以 使 用 一 个 tuple 指定 (OH,oW)， 也 可 以 使 用 一 个 数字 
OH 指定 一 个 oH*oH 的 输出 。 

e output ratio 一 将 输入 图 像 的 大 小 的 百分比 指定 为 输出 图 片 的 大 小 ， 使 用 一 个 范围 在 (0,1) 
之 间 的 数字 指定 

e return indices - 默认 值 False ， 如 果 设 置 为 True ， 会 返回 输出 的 索引 ， 索 引 对 
nn.MaxUnpool2d 有 用 8 


Example : 
»»» i Roos e window of size-3, target output size 13x12 
>> m = nn. FractionalniaxPool2q(3， UE size- (13, a 
>>> # pool of lare window and target output 2 ig half of input image size 


>> m = nn. NUS tn IM od output_ ratio= (0. C a. 5)) 
>>> input = autograd.Variable(torch.randn(20, 16, 50, 32)) 
>>> output = m(input) 


class torch.nn.LPPool2d(norm_type, kernel_size, 
stride=None, ceil_mode=False) 


FAAA F REE g XC Ig AiR o 输出 的 计算 方式 : 
$$f(x)=pow(sum(X,p),1/p)$$ 


e 当 p 为 无 穷 大 的 时 候 时 ， 等 价 于 最 大 池 化 操作 
e X pa 时 ， 等 价 于 平均 池 化 操作 


参数 kernel size , stride 的 数据 类 型 : 


e int ， 池 化 窗口 的 宽 和 高 相等 
e tuple 数组 (两 个 数字 的 ) ， 一 个 元 素 是 池 化 窗口 的 高 ， 另 一 个 是 宽 


数 


e kernel size: 池 化 窗口 的 大 小 
e stride : 池 化 窗口 移动 的 步 长 。 kernel size 是 默认 值 
e ceil mode: ceil mode=True 时 ， 将 使 用 向 下 取 整 代替 向 上 取 整 


shape 


e 输入: (N,C,H_in,W_in) 

e 输出 : (N,C,Hout,W out) 
$$\begin{aligned} H(out) = floor((Hfin?--2padding[OJ-dilation[O] 
(kernel size[0]-1)-1)/stride[0]* 1)! W(out) = floor((W (in)*-2paading[1 ]-dilation[1] 
(kernel size[1]-1)-1)'stride[1]* 1) vend(aligned) $$ 


Example: 


>>> # pov 2 poo: c d of s 

>> m = nn. 1: LPPo0124(2, 3, stride- =2) 

22> 4 po square wi ) 2 

>> m = nn. LPPool2d(i. 2, (i97 EE des Se 4) 

>>> Aue = = autograd.Variable(torch.randn(20, 16, 50, 32)) 
>>> output = m(input) 


class torch.nn.AdaptiveMaxPool1d(output size, 
return indices-False) 


对 输入 信号 ， 提 供 1 维 的 自 适 应 最 大 池 化 操作 对 于 任何 输入 大 小 的 输入 ， 可 以 将 输出 尺寸 指定 
为 H， 但 是 输入 和 输出 特征 的 数目 不 会 变化 。 


参数 : 


e output size: 输出 信号 的 尺寸 
. return _ indices: 如 果 设 置 为 True ， 会 返回 输 出 的 索引 ° 3} nn. MaxUnpoolid 有 用 * IRTA 
值 是 False 


Example : 


>>> target output f 

>>> m = nn. e a 

>>> input = autograd.Variable(torch.randn(1, 64, 8)) 
>>> output = m(input) 


class torch.nn.AdaptiveMaxPool2d(output_size, 
return_indices=False) 


对 输入 信号 ， 提 供 2 维 的 自 适应 最 大 池 化 操作 对 于 任何 输入 大 小 的 输入 ， 可 以 将 输出 尺寸 指定 
为 H*W， 但 是 输入 和 输出 特征 的 数目 不 会 变化 。 


参数 : 


e output size: 输出 信号 的 尺寸 ,可 以 用 (HW) 表示 Hw 的 输出 ， 也 可 以 使 用 数字 H 表 
示 H*H 大 小 的 输出 

e return indices: 如 果 设 置 为 True ， 会 返回 输出 的 索引 。 对 nn.Maxunpool2d ÆA M > RA 
值 是 False 


Example : 


>>> target outpL f 

>> m = nn. Jg. eM REO Tad S 7)) 

>>> inpe = = UE Me s sU a 64, 8, 9)) 
之 之 之 targe (sque 

>> m = nn. NE) 

>>> input = autograd.Variable(torch.randn(1, 64, 10, 9)) 
>>> output = m(input) 


class torch.nn.AdaptiveAvgPool1d(output size) 


对 输入 信号 ， 提 供 1 维 的 自 适 应 平均 池 化 操作 对 于 任何 输入 大 小 的 输入 ， 可 以 将 输出 尺寸 指定 
为 H*W， 但 是 输入 和 输出 特征 的 数目 不 会 变化 。 


参数 : 
e output size: 输出 信号 的 尺寸 
Example : 


>>> target output 

>>> m = nn. SE S 

>>> input = autograd.Variable(torch.randn(i, 64, 8)) 
>>> output = m(input) 


class torch.nn.AdaptiveAvgPool2d(output size) 


对 输入 信号 ， 提 供 2 维 的 自 适 应 平均 池 化 操作 对 于 任何 输入 大 小 的 输入 ， 可 以 将 输出 尺寸 指定 
为 ew ， 但 是 输入 和 输出 特征 的 数目 不 会 变化 。 
参数 : 
e output size: 输出 信号 的 尺寸, 可 以 用 (H,W) 表 示 ww 的 输出 ， 也 可 以 使 用 耽搁 数字 HH 表示 
H*H 大 小 的 输出 


Example : 


>>> # target outpL e of ! 

>> m = nn. Aden OR ORO odad (6 7)) 

>>> ST = aurogradi E OE LUDUM 64, 8, 9)) 
>>> # target outpL X (squ 

>> m = nn. Boat eave oola( 

>>> input = autograd.Variable(torch.randn(1, 64, 10, 9)) 
>>> output = m(input) 


Non-Linear Activations source 


class torch.nn.ReLU(inplace=False) [source] 
对 输入 运用 修正 线性 单元 函数 $fReLU}(x)= max(0, x)$ > 
参数 : inplace- 选 择 是 否 进行 覆盖 运算 
shape : 


e 输入 : $(N,)$， 代 表 任 意 数目 附加 维度 
e 输出 : $(N, )$ ,与 输入 拥有 同样 的 shape 届 性 


例子 : 


>>> m = nn.ReLU() 

>>> input = autograd.Variable(torch.randn(2)) 
>>> print(input) 

>>> print(m(input)) 


class torch.nn.ReLU6(inplace-False) [source] 
对 输入 的 每 一 个 元 素 运 用 函数 $fReLU6}(x) = min(max(0,x), 6)$ > 
参数 : inplace- 选 择 是 否 进行 覆盖 运算 
shape : 


。 输入 : $(N,)$， 代 表 任 意 数 目 附 加 维度 
e 输出 : $(N,*)$ ;与 输入 拥有 同样 的 shape 属 性 


例子 : 


>>> m = nn.ReLU6() 

>>> input = autograd.Variable(torch.randn(2)) 
>>> print(input) 

>>> print(m(input)) 


class torch.nn.ELU(alpha=1.0, inplace=False) [source] 
对 输入 的 每 一 个 元 素 运 用 函数 $fx) = max(0,x) + min(0, alpha * (e^x - 1))$， 


shape : 


A : $(N, 9)$， 星 号 代表 任意 数目 附加 维度 
e 输出 : $(N, 9)$ 与 输入 拥有 同样 的 shape 属 性 


>>> m = nn.ELU() 

>>> input = autograd.Variable(torch.randn(2)) 
>>> print(input) 

>>> print(m(input)) 


class torch.nn.PReLU(num parameters-1, init=0.25)[source] 


对 输入 的 每 一 个 元 素 运 用 函数 $PReLU(x) = max(0,x) + a * min(0,x)$ > a 是 一 个 可 学 习 参 
数 。 当 没有 声明 时 ， nn.PReLu() 在 所 有 的 输入 中 只 有 一 个 参数 a ; 如 果 


是 nn.PReLU(nChannels) * a 将 应 用 到 每 个 输入 。 
注意 : 当 为 了 表现 更 佳 的 模型 而 学 习 参 数 a 时 不 要 使 用 权重 衰减 (weight decay) 


参数 : 


。 num parameters : 需要 学 习 的 a 的 个 数 ， 默 认 等 于 1 
e init: a 的 初始 值 ， 默认 等 于 0.25 


shape : 


。 输入 : $N, )8， 代 表 任 意 数目 附加 维度 
e 输出 : $(N, 9)$， 与 输入 拥有 同样 的 shape 属 性 


例子 : 


>>> m = nn.PReLU() 

>>> input = autograd.Variable(torch.randn(2)) 

>>> print(input) 

>>> print(m(input)) 

class torch.nn.LeakyReLU(negative slope-0.01, inplace-False) [source] 
对 输入 的 每 一 个 元 素 运 用 $f(x) = max(0, x) + (negative slope) * min(0, x)$ 
参数 : 


e negative slope : 控制 ues de |! EE T 0.01 
e inplace- 选 择 是 否 进行 覆盖 运 


shape : 


。 输入 : S(N, )$， 代 表 任 意 数 目 附 加 维度 
e 输出 : $(N, *)$ ,与 输入 拥有 同样 的 shape 届 性 


例子 : 


>>> m = nn.LeakyReLU(0.1) 

>>> input = autograd.Variable(torch.randn(2)) 
>>> print(input) 

>>> print(m(input)) 


class torch.nn.Threshold(threshold, value, inplace=False) [source] 
Threshold € 3 : 
$$ y = x if x >= threshold y = value,if x < threshold 
$$ 
参数 : 


e threshold : Ej 4& 
e value : 4 A 4& h TA Ou] 人 
e inplace : 选择 是 否 进行 履 盖 运算 


。 输入 : $(N, )， 代 表 任意 数目 附加 维度 
e 输出 : $(N, 9)$， 与 输入 拥有 同样 的 Shape 属 性 


>>> m = nn.Threshold(0.1, 20) 

>>> input = Variable(torch.randn(2)) 
>>> print(input) 

>>> print(m(input)) 


class torch.nn.Hardtanh(min value--1, max_value=1, inplace=False) [source] 
对 每 个 元 素 ， 
$$ f(x) = +1, iN x > 1;\f(x) = -1, if x < -1;\ f(x) = x, otherwise 
$$ 
线性 区 域 的 范围 [-1,1] 可 以 被 调整 
参数 : 


e min value : 线性 区 域 范围 最 小 值 
e max value : 线性 区 域 范围 最 大 值 
e inplace : 选择 是 否 进行 禾 盖 运 莫 


shape : 


入 : (N, *) ，* 表 示 任 意 维度 组 合 
e 输出 : (N,*) ;与 输入 有 相同 的 shape 属 性 


>>> m = nn.Hardtanh() 

>>> input = autograd.Variable(torch.randn(2)) 
>>> print(input) 

>>> print(m(input)) 

class torch.nn.Sigmoid [source] 


对 每 个 元 素 运用 Sigmoid 函 数 ，Sigmoid 定义 如 下 : 


$$f(x) = 1/ (1+ e^Cx)$$ 


shape : 
。 输入 : (N, *)，* 表 示 任 意 维 度 组 合 


入 
e 输出 : (N,*) ;与 输入 有 相同 的 shape 属 性 


例子 : 


>>> m = nn.Sigmoid() 

>>> input = autograd.Variable(torch.randn(2)) 
>>> print(input) 

>>> print(m(input)) 


class torch.nn.Tanh [source] 
对 输入 的 每 个 元 素 ， 


$$f(x) = Vrac(e^(x) - e^-x)) {ex} + e^tx$$ 


A(N,” e ERR A 
e 输出 : (N,*)， 与 输入 有 相同 的 shape 属 性 


>>>m= nn.Tanh() 

>>> input = autograd.Variable(torch.randn(2)) 
>>> print(input) 

>>> print(m(input)) 


class torch.nn.LogSigmoid [source] 
对 输入 的 每 个 元 素 ，$LogSigmoid(x) = log( 1/ ( 1 + e™-x}))$ 
shape : 


入 : (N, *)，* 表 示 任 意 维 度 组 合 
e 输出 : (N,*) ;与 输入 有 相同 的 shape 属 性 


>>> m = nn.LogSigmoid() 

>>> input = autograd.Variable(torch.randn(2)) 
>>> print(input) 

>>> print(m(input)) 


class torch.nn.Softplus(beta=1, threshold-20)[source] 
对 每 个 元 素 运用 Softplus 函 数 ，Softplus 定义 如 下 : 
$$f(x) = Vrac(1)Hbeta) log(1 + e^((beta x i))$$ 
Softplus $ žc X ReLU $ ği T 75 38 vt > Softplus à Zt T Ve 43-46; d 48 TRO 7] EA o 


为 了 保证 数值 稳定 性 ， 线 性 函数 的 转换 可 以 使 输出 大 于 茶 个 值 。 


数 : 


e beta : Softplus£iZt tJ betaf& 
e threshold : 阅 值 


shape : 
。 输入 : (N,*)，* 表 示 任 意 维 度 组 合 


入 
e 输出 : (N,*) ;与 输入 有 相同 的 shape 属 性 


>>> m = nn.Softplus() 

>>> input = autograd.Variable(torch.randn(2)) 
>>> print(input) 

>>> print(m(input)) 


class torch.nn.Softshrink(lambd=0.5)[source] 
*LH EA 7G X 38 Jl Softshrink Až > Softshrinki Zi E LTF : 
$$ f(x) = x-lambda, if x > lambda f(x) = x+lambda, if x < -lambda f(x) = 0, otherwise 
$$ 
参数 : 


lambd : Softshrink&Z& &jlambda4& > RUA 0.5 


入 : (N, *)，* 表 示 任 意 维 度 组 合 
e 输出 : (N,*) ;与 输入 有 相同 的 shape 属 性 


>>> m = nn.Softshrink() 

>>> input = autograd.Variable(torch.randn(2)) 
>>> print(input) 

>>> print(m(input)) 


class torch.nn.Softsign [source] 


$f(x) = x/ (1 + |x|)$ 


A : (N, *)，* 表 示 任 意 维 度 组 合 
e 输出 : (N,*)， 与 输入 有 相同 的 shape 属 性 


>>> m = nn.Softsign() 

>>> input = autograd.Variable(torch.randn(2)) 
>>> print(input) 

>>> print(m(input)) 

class torch.nn.Softshrink(lambd-0.5)[source] 


对 每 个 元 素 运 用 Tanhshrink 函 数 ，Tanhshrink 远 数 定义 如 下 : 


$$ Tanhshrink(x) = x - Tanh(x) 


$$ 
shape 
e 输入 : (N,*)，* 表 示 任意 维度 组 合 


入 
。 输 出 : (N, *)， 与 输入 有 相同 的 shape 属 性 


>>>m= nn.Tanhshrink() 

>>> input = autograd.Variable(torch.randn(2)) 
>>> print(input) 

>>> print(m(input)) 


class torch.nn.Softmin [source] 


对 n 维 输入 张 量 运 用 Softmin 函 数 ， 将 张 量 的 每 个 元 素 缩 放 到 (0,1). 区 间 且 和 为 1。 Softmin $% 
数 定 义 如 下 : 


$$f i(x) = \frac{e^{(-x_i - shift)}} { \sum^j eN(-x j - shift)}},shift = max (x i)$$ 


shape : 
e i (N, L) 


>>> m = nn.Softmin() 

>>> input = autograd.Variable(torch.randn(2, 3)) 
>>> print(input) 

>>> print(m(input)) 


class torch.nn.Softmax [source] 


对 n 维 输入 张 量 运用 Softmax 函 数 ， 将 张 量 的 每 个 元 素 缩放 到 (0,1) 区 间 且 和 为 1。Softmax 函 
数 定义 如 下 : 


$$f i(x) = Vrac(e^((x i - shift))) (sum^j e^((x j - shift))),shift = max (x i)$$ 


shape : 


返回 结果 是 一 个 与 输入 维度 相同 的 张 量 ， 每 个 元 素 的 取 值 范围 在 〈0,1) 区 间 。 


例子 : 


>>> m = nn.Softmax() 

>>> input = autograd.Variable(torch.randn(2, 3)) 
>>> print(input) 

>>> print(m(input)) 


class torch.nn.LogSoftmax [source] 
对 n 维 输入 张 量 运用 LogSoftmax 骂 数 ，LogSoftmax 亏 数 定义 如 下 : 
$$f_i(x) = log \frac{e^{(x_i)}} {a}, a = \sum^j e^t(x j))$$ 


shape : 


例子 : 


>>> m = nn.LogSoftmax() 

>>> input = autograd.Variable(torch.randn(2, 3)) 
>>> print(input) 

>>> print(m(input)) 


Normalization layers isoucal 


class torch.nn.BatchNorm1d(num features, eps-1e-05, 
momentum7z0.1, affinezTrue) rsource 


对 小 批量 (mini-batch) 的 2d 或 3d 输 入 进行 批 标准 化 (Batch Normalization) 操 作 
$$ y = \frac{x - mean[x]}{ \sqrt{Var[x]} + \epsilon} * gamma + beta $$ 


在 每 一 个 小 批量 (mini-batch) 数据 中 ， 计 算 输 入 各 个 维度 的 均值 和 标准 差 。gamma 与 beta 是 
可 学 习 的 大 小 为 C 的 参数 向 量 (C 为 输入 大 小 ) 

在 训练 时 ， 该 层 计算 每 次 输入 的 均值 与 方差 ， 并 进行 移动 平均 移动 平均 味 认 的 动量 值 为 
0.1。 


在 验证 时 ， 训 练 求 得 的 均值 /方差 将 用 于 标准 化 验证 数据 。 
参数 : 


e num features : 来 自 期 望 输入 的 特征 数 ， 该 期 望 输入 的 大 小 为 'batch_size x 
num features [x width] 

e eps: 为 保证 数值 稳定 性 (分 母 不 能 趋 近 或 取 0) ,给 分 母 加 上 的 值 。 默 认为 1e-5。 

e momentum : 动态 均值 和 动态 方差 所 使 用 的 动量 。 默 认为 0.1。 

e affine: 一 个 布尔 值 ， 当 设 为 true， 给 该 层 添 加 可 学 习 的 仿 射 变换 参数 。 


Shape : 
e d (N, C) 或 者 (N, C, L) 


入 
e 输出 : (N,C) 或 者 (N，C，L) (输入 输出 相同 ) 


例子 
>>> deser Learnable Parameters 
>>> m = nn. BatehNorn Ld CE0) 
>>> # Without Learnable Parameters 


>> m = nn. BatchNormid(190, affine-False) 
>>> input = autograd.Variable(torch.randn(20, 100)) 
>>> output = m(input) 


class torch.nn.BatchNorm2d(num features, eps-1e-05, 
momentum=0.1, affine-True):«.«« 


对 小 批量 (mini-batch)3d 数 据 组 成 的 4d 输 入 进行 批 标 准 化 (Batch Normalization)2& 4E 


$$ y = \frac{x - mean[x]}{ Vsart(Var[x]) + vepsilon) * gamma + beta $$ 

在 每 一 个 小 批量 (mini-batch) 数据 中 ， 计 算 输 入 各 个 维度 的 均值 和 标准 差 。gamma 与 beta 是 
可 学 习 的 大 小 为 C 的 参数 向 量 (C 为 输入 大 小 ) 

在 训练 时 ， 该 层 计算 每 次 输入 的 均值 与 方差 ， 并 进行 移动 平均 。 移 动 平均 默认 的 动量 值 为 

0.1 ° 

在 验证 时 ， 训 练 求 得 的 均值 /方差 将 用 于 标准 化 验证 数据 。 


参数 : 


e num features : 来 自 期 望 输入 的 特征 数 ， 该 期 望 输入 的 大 小 为 'batch_size x 
num features x height x width' 

e eps: 为 保证 数值 稳定 性 (分母 不 能 趋 近 或 取 0) 2 8e E8)48 » RUA 1e-5» 

e momentum : re ns 。 默 认为 0.1。 

。 affine: 一 个 布尔 值 ， 当 设 为 true， 层 添加 可 学 习 的 仿 射 变换 参数 。 


A: (N,C，H, W) 
e 输出 : (N,C,H, W) (输入 输出 相同 ) 


>>> m - nn. .Batchormad(100) 

>>> # Whe Jut l Parameters 

>> m - nn. Hore on False) 

>>> input = autograd.Variable(torch.randn(20, 100, 35, 45)) 
>>> Output = m(input) 


class torch.nn.BatchNorm3d(num features, eps-1e-05, 
momentum:z^0.1, affine=True)rsource 


对 小 批量 (mini-batch)4d 数 据 组 成 的 5d 输 入 进行 批 标准 化 (Batch Normalization) 操 作 

$$ y = \frac{x - mean[x]}{ \sqrt{Var[x]} + vepsilon) * gamma + beta $$ 

在 每 一 个 小 批量 (mini-batch) 数据 中 ， 计 算 输入 各 个 维度 的 均值 和 标准 差 。gamma 与 beta 是 
可 学 习 的 大 小 为 C 的 参数 向 量 (C 为 输入 大 小 ) 

在 训练 时 ， 该 层 计 算 每 次 输入 的 均值 与 方差 ， 并 进行 移动 平均 。 移 动 平均 默认 的 动量 值 为 

0.1 ° 

在 验证 时 ， 训 练 求 得 的 均值 /方差 将 用 于 标准 化 验证 数据 。 

参数 : 


e num_features : 来 自 期 望 输入 的 特征 数 ， 该 期 望 输入 的 大 小 为 'batch_size x 
num features depth x height x width' 

。 eps: 为 保证 数值 稳定 性 〈 分 母 不 能 趋 近 或 取 0) ,给 分 母 加 上 的 值 。 默 认为 1fe-5。 

e momentum : 动态 均值 和 动态 方差 所 使 用 的 动量 。 黑 认为 0.1。 

e affine: 一 个 布尔 值 ， 当 设 为 true， 给 该 层 添 加 可 学 习 的 仿 射 变换 参数 。 


Shape : 


A: (N,C^ D,H,W) 
e 输出 : (N,C,D,H, W) (输入 输出 相同 ) 


>>> 4 With Learnable Parameters 

>>> m = nn.BatchNorm3d(190) 

>>> # Without Learnable Parameters 

>>> m = nn.BatchNorm3d(100, affine-False) 

>>> input = autograd.Variable(torch.randn(20, 100, 35, 45, 10)) 
>>> output = m(input) 


Recurrent layers 


class torch.nn.RNN( args, * kwargs)[source] 

将 一 个 多 层 的 Elman RN ， 激 活 函 数 为 tanh 或 者 reu ， 用 于 输入 序列 。 
对 输入 序列 中 每 个 元 素 ， RNN 每 层 的 计算 公式 为 

$$ ht-tanh(w(ih) xt-*bfih)*w. (hh) h(t-1)*b(hh)) 


$$ $h t$:5 H ZJ$t$ 59 I 3A & o $x t$76. E — E IN LZ StS 89 IRA o RA UR JEN AI StS ig d 
入 。 如 果 nonlinearity-'relu' ,那么 将 使 用 relu A tanh 作为 激活 函数 2 


参数 说 明 : 
e input size 一 输入 x 的 特征 数量 。 
e hidden size — 隐 层 的 特征 数量 。 
e num layers 一 RNN 的 层 数 。 
e nonlinearity 一 指定 非 线 性 函数 使 用 tanh 还 是 relu 。 默 认 是 tanh ° 
e bias — 如 果 是 False ， 那 么 RNN 层 就 不 会 使 用 偏 置 权重 $b_ih$ 和 $b_hh$, 默 认 是 True 


e batch first — 如 果 True 的 话 ， 那 么 输入 Tensor 的 shape 应 该 是 [batch_size, time step, 
feature], 输 出 也 是 这 样 。 


e dropout- 如果 值 非 替 ， 那 么 除了 最 后 一 层 外 ， 其 它 层 的 输出 都 会 套 上 一 个 dropout Æ ° 
e bidirectional — 如果 True ， 将 会 变 成 一 个 双向 RN ， 默 认为 False ° 
RNN 的 输入 : (input, h 0) 


e input (seq len, batch, input size): 保存 输入 序列 特征 的 tensor ° input 可 以 是 被 填充 
的 变 长 的 序列 。 细 节 请 看 torch.nn.utils.rnn.pack padded sequence() 


e h 0 (num layers * num directions, batch, hidden size): 保存 着 初始 隐 状 态 的 tensor 


RNN 的 输出 : (output, h n) 


e output (seq len, batch, hidden size * num directions): 保存 着 RNN 最 后 一 层 的 输出 特 
征 。 如 果 输 入 是 被 填充 过 的 序列 ， 那 么 输出 也 是 被 填充 的 序列 。 
e h_n (num_layers * num directions, batch, hidden size): 保存 着 最 后 一 个 时 刻 隐 状 态 。 


RNN 模型 参数 : 
e weight ih_I[k] 一 第 k 层 的 input-hidden 权重 ， 可 学 习 ， 形 状 
是 (input size x hidden size) ° 


e weight hh _I[k] 一 第 k 层 的 nidden-hidden 权重 ， 可 学 习 ， 形 状 
是 (hidden size x hidden size) 


e bias ih I[k] 一 第 k /£ &9  input-hidden 偏 置 ， 可 学 习 ， 形 状 是 (hidden size) 
e bias hh Il[k] -第 k 层 的 nidden-hidden 偏 置 ， 可 学 习 ， 形 状 是 (hidden_size) 


示例 : 


rnn = nn.RNN(10, 20, 2) 

input = Variable(torch.randn(5, 3, 10)) 
ho = Variable(torch.randn(2, 3, 29)) 
output, hn - rnn(input, h0) 


class torch.nn.LSTM( args, * kwargs)[source] 
将 一 个 多 层 的 (sm) 应 用 到 输入 序列 。 
对 输入 序列 的 每 个 元 素 ， LsTM 的 每 层 都 会 执行 以 下 计算 : 


$$ \begin{aligned} it &= sigmoid(Wii}xt+b{i?}+W{hi}h{t-1}+b{hi}) Vf t &= 
Sigmoid(WAif}xt+b{if}+W{hfh{t-1}+b{hf}) Vo t &= sigmoid(WAio}xt+b{io}+W{ho}h{t-1}+b{ho)\ 
g t &- tanh(W(igyxt*b(ig* W(hg)h(t-1)-b(hgj)A c t &=F t*c(t-1)-i tg t^ t&-0o ttanh(c t) 
\end{aligned} 


$$ $h_t$ 是 时 刻 $t$ 的 隐 状 态 ,$c_t$ 是 时 刻 $t$ 的 细胞 状态 ，$x SÆLE 09 4e mp I StS AR 
态 或 者 是 第 一 层 在 时 刻 $t$ 的 输入 。$i tf tg to t$ 分 别 代 表 输入 门 ， 遗 忘 门 ， 细 胞 和 输出 
门 。 

参数 说 明 : 


e input size 一 输入 的 特征 维度 


hidden size — 隐 状 态 的 特征 维度 


e num layers 一 层 数 (和 时 序 展 开 要 区 分 开 ) 


bias 一 如果 为 False > ARZA Lsm 将 不 会 使 用 $bfihy,b{hh}$， 上 默认 为 True ° 


batch first 一 如 果 为 True ， 那 么 输入 和 输出 Tensor 的 形状 为 (batch，seq，feature) 


e dropout- 如 果 非 零 的 话 ， 将 会 在 RNN 的 输出 上 加 个 dropout ， 最 后 一 层 除外 。 
e bidirectional- 如 果 为 True ， 将 会 变 成 一 个 双向 RNN ， 默 认为 False ° 
LsTM 输入 :input, (h O, c 0) 


。 input (seq len, batch, input size): 包含 输入 序列 特征 的 Tensor 。 也 可 以 
X packed variable ， 详 见 pack padded sequence 


e h 0 (num layers * num directions, batch, hidden size): R £t batch 中 每 个 元 素 的 初始 
化 隐 状 态 的 Tensor 


e c 0 (num layers * num directions, batch, hidden size): 保存 着 batch 中 每 个 元 素 的 初 
始 化 细胞 状态 的 Tensor 


LSTM 输出 output, (h n,c n) 


e output (seq len, batch, hidden size * num directions): 保存 RNN 最 后 一 层 的 输出 
的 Tensor 。 如 果 输 入 是 torch.nn.utils.rnn.PackedSequence ， 那么 输出 也 


是 torch.nn.utils.rnn. PackedSequence “ 


e h_n (num_layers * num directions, batch, hidden size): Tensor ， 保 存 着 RNN 最 后 一 个 
时 间 步 的 隐 状 态 。 


e c n (num layers * num directions, batch, hidden size): Tensor ， 保 存 着 RNN 最 后 一 个 
时 间 步 的 细胞 状态 。 


LSTM 模型 参数 : 


e weightih /[k] — % k 层 可 学 习 的 input-hidden 4 € ($Wüi)| Wfif]| Wig W. fio)$) > 76:3. 


为 (input size x 4*hidden size) 


e weighthh /[k] -第 k 层 可 学 习 的 nidden-hidden Tx € ($Wthi|Wfhf| Mho} W. (ho)$) > 7€ 
JA 7] (hidden size x 4*hidden size) ° 


e biasih I[k| — 5$ k 层 可 学 习 的 input-hidden a £ ($b(ii)|b(ifj|b(ig)b. (io)$) > 7& IR 
为 ( 4*hidden size) 


e biashh I[k] — 第 k 层 可 学 习 的 niaden-hidden 4& Æ ($b(hiy|b(hfj|b(hg)b (ho)$) > 7 3X 
7] ( 4*hidden size) ° 示例 : 


lstm = nn.LSTM(10, 20, 2) 

input = Variable(torch.randn(5, 3, 10)) 
ho = Variable(torch.randn(2, 3, 20)) 
cO = Variable(torch.randn(2, 3, 20)) 
output, hn = lstm(input, (h0, c0)) 


class torch.nn.GRU( args, * kwargs)[source] 


将 一 个 多 层 的 GRU 用 于 输入 序列 。 


$$ \begin{aligned} rt&-sigmoia(W(r)yxt--b(ir- W(hrjh((t-1))*bfhr) 
i t&-sigmoid(Wüiyxt*b(iiy* Wfhi)h(t-1))*bfhi])! n. t&-tanh(Wün)xt*b(in)-rt(Wfhn)h((t- 
1)*b (hnj)Vh t&-(1-i t) nt*i t*h(t-1) end(aligned) 


$$ $h t$ C5 IR $t$ 69 EIRA ^ Sx ISÆR — A SES Z2] 04 TR. s 3L EC A 09 t$ 18 22] 
的 输入 ，$r tt it, n_t$ 分 别 是 重 置 门 ， 输 入 门 和 新 门 。 


参数 说 明 : 


e input size — 期 望 的 输入 $x$ 的 特征 值 的 维度 
e hidden size — 隐 状 态 的 维度 
e num layers 一 RNN 的 层 数 。 
e bias — 如 果 为 False ， 那 么 RNN 层 将 不 会 使 用 bias ， 软 认为 True ° 
e batch first — 如 果 为 True 的 话 ， 那 么 输入 和 输出 的 tensor 的 形状 
是 (batch, seq, feature) ? 
. dropout 一 如果 非 零 的 话 ， 将 会 在 RNN 的 输出 上 加 个 dropout ， 最 后 一 层 除外 。 
e bidirectional- 如 果 为 True ， 将 会 变 成 一 个 双向 RNN ， 默 认为 False ° 


输入 : input, h O 


。 input (seq len, batch, input size): 包含 输入 序列 特征 的 Tensor 。 也 可 以 
X packed variable ， 详 见 pack padded sequence » 


e h 0 (num layers * num directions, batch, hidden size): f& £t batch 中 每 个 元 素 的 初始 
化 隐 状 态 的 Tensor 


输出 : output, h_n 


e output (seq len, batch, hidden size * num directions): ten 保 存 RNN 最 后 一 层 的 输出 
的 Tensor 。 如 果 输 入 是 torch.nn.utils.rnn.PackedSequence ? 那么 输出 也 


是 torch.nn.utils.rnn. PackedSequence “ 


e h_n (num_layers * num directions, batch, hidden size): Tensor ， 保 存 着 RNN 最 后 一 个 
时 间 步 的 隐 状 态 。 


Ze 
i-am . 


ta 


e weightih /[k] — % k 层 可 学 习 的 input-hidden 4x € ($W(ir)|W(ii]| W(in)$) > 7E AR 


为 (input size x 3*hidden size) 


e weighthh /[k] =- 第 k 层 可 学 习 的 niaden-hidden Tx € ($WthrW(hig| Wthn)$) > 7€ 3X 


为 (hidden size x 3*hidden size) ? 


e biasih I[k| -第 k 层 可 学 习 的 input-hidden Wa E ($b(ir)|b(ii]|b(iny$) > 7G 3 
为 ( 3*hidden size) 


e biashh I[k] — $% k 层 可 学 习 的 hidden-hidden Wa E. (Sb(hr)|b(hi)|b(hn)$) > 7E 3X 
7] ( 3*hidden size) ° 


例子 : 


rnn = nn.GRU(10, 20, 2) 

input = Variable(torch.randn(5, 3, 10)) 
ho = Variable(torch.randn(2, 3, 20)) 
output, hn - rnn(input, h0) 


class torch.nn.RNNCell(input size, hidden size, bias-True, 
nonlinearityz'tanh')[source] 


一 个 Elan RNN cell ， 激 活 函 数 是 tanh 或 reu ， 用 于 输入 序列 。 将 一 个 多 层 的 
Elman RNNCell ° XH BAA tan 或 者 reu ， 用 于 输入 序列 。 


$$ h'-tanh(wfih]* x+b{ih}+w{hh}* h+b{hh}) 
$$ 如 果 nonlinearity-relu ， 那 么 将 会 使 用 ReLu 来 代替 tanh ° 
参数 : 
e input size — 输入 $x$， 特 征 的 维度 。 
e hidden size — 隐 状 态 特征 的 维度 。 
e bias 一 如 果 为 False ， RNN cell 中 将 不 会 加 入 bias ， 默 认为 True ° 
e nonlinearity — 用 于 选择 非 线 性 激活 函数 [ tanh | relu ]. 默认 值 为 : tanh 
输入 : input, hidden 
e input (batch, input size): 包含 输入 特征 的 tensor ° 
e hidden (batch, hidden size): 保存 着 初始 隐 状 态 值 的 tensor ° 
输出 : h: 


e h’ (batch, hidden_size): 下 一 个 时 刻 的 隐 状 态 。 


又 。 


DE 


e weight ih — input-hidden 权重 ， 可 学 习 ， 形 状 是 (input_size x hidden size) ° 
e weight hh — hidden-hidden 权重 ， 可 学 习 ， 形 状 是 (hidden size x hidden size) 


e bias ih — input-hidden 偏 置 ， 可 学 习 ， 形 状 是 (hidden size) 


e bias hh — hidden-hidden 偏 置 ， 可 学 习 ， 形 状 是 (hidden_size) 
例子 : 


rnn = nn.RNNCell(10, 20) 
input = Variable(torch.randn(6, 3, 10)) 
hx = Variable(torch.randn(3, 20)) 
output = [] 
for i in range(6): 
hx - rnn(input[i], hx) 
output.append(hx) 


class torch.nn.LSTMCell(input size, hidden size, 
bias-True)[source] 


LSTM cell ? 


$$ \begin{aligned} i &= sigmoid(W fii}x+b{ii}+W{hi}h+b{hi}) V f &- 
sigmoid(W([if)x-b(if)--W(hf)h*b(hf)) \ o &= sigmoid(Wf(iojx*b(io)- Wfhojh-*b(ho)) g &- 
tanh(Wf(ig)x-*b(ig* Wfhg)h-*b(hgY c' &= ft*c(t-1)*i tg f h' &= o ttanh(c') end(aligned) 


$$ 


e input size — 输入 的 特征 维度 。 
e hidden size — 隐 状 态 的 维度 。 
e bias — 如 果 为 False ， 那么 将 不 会 使 用 bias ° RUX True ° 


LsTM 输入 : input, (h_0, c_0) 


e input (seq len, batch, input size): 包含 输入 序列 特征 的 Tensor 。 也 可 以 
是 packed variable ， 详 见 pack padded sequence 


e h O( batch, hidden size): R t 4t batch 中 每 个 元 素 的 初始 化 隐 状 态 的 Tensor 
e c_0 (batch, hidden size): 保存 着 batch 中 每 个 元 素 的 初始 化 细胞 状态 的 Tensor 
输出 : h 1,c 1 


e h 1 (batch, hidden size): 下 一 个 时 刻 的 隐 状 态 。 
e c_1 (batch, hidden size): 下 一 个 时 刻 的 细胞 状态 。 


LSTM 模型 参数 : 


e weightih — input-hidden 4x € ($Wii)| Wfif| Wig W. fio]$) > 76 3& 


为 (input size x 4*hidden size) 


e weighthh 一 hidden-hidden dx € ($Wthiy|W(hf|W(hgM|W. (ho)$) > 76 3X 


为 (hidden size x 4*hidden size) ? 
e biasih 一 input-hidden a E ($b(i)|b[(if|b(ig)|b (io)$) > IARA ( 4*hidden size) 
e biashh — hidden-hidden Wa E ($b(hiy|b(hfj|b(hgM|b (ho)$) > 76 2X 74 ( 4*hidden size) ° 


Examples: 


rnn = nn.LSTMCell(10, 20) 
input = Variable(torch.randn(6, 3, 10)) 
hx = Variable(torch.randn(3, 20)) 
cx - Variable(torch.randn(3, 20)) 
output - [] 
for i in range(6): 
hx, cx = rnn(input[i], (hx, cx)) 
output.append(hx) 


class torch.nn.GRUCell(input size, hidden size, bias-True) 
[source] 


一 个 GRU cell 。 


$$ \begin{aligned} r&=sigmoid(W{ir}x+b{ir}+W{hr}h+b{hr}\ 
i&=sigmoid(W{iix+b{ii}+W{hi}h+b{hi}\ n&=tanh(W{in}x+b{in}+r(W{fhn}h+bfhn}))\ h'&=(1-i) 
n+i*h \end{aligned} 


$$ 
参数 说 明 : 


e input size 一 期望 的 输入 $x$ 的 特征 值 的 维度 
e hidden size — 隐 状 态 的 维度 
e bias 一 如 果 为 False °? MZ RNN 层 将 不 会 使 用 bias >? RUX True ° 


输入 : input, h O 

e input (batch, input size): 包含 输入 特征 的 Tensor 

e h O0 (batch, hidden size):f& 4$ X batch 中 每 个 元 素 的 初始 化 隐 状 态 的 Tensor 
输出 : h 1 


e h 1 (batch, hidden size): Tensor ， 保 存 着 RNN 下 一 个 时 刻 的 隐 状 态 。 


me. 
又 . 


ta 


e weightih 一 input-hidden tx € ($W(r)Wh(ii|W(n)$) > 76 3X 


为 (input size x 3*hidden size) 


e weighthh 一 nidden-hidden dx € ($Wthr)|Wíhi)| W(hn)$) > 形状 


为 (hidden size x 3*hidden size) ? 
e biasih — input-hidden a E ($b(r)|b(iip|b(injS) > 7G 3&7) ( a*hidden size) 
e biashh — hidden-hidden à E (S$b(hr)|b(hi|b(hn)$) > 76 2&7] ( s*hidden size) ° 


例子 : 


rnn = nn.GRUCell(10, 20) 
input = Variable(torch.randn(6, 3, 10)) 
hx = Variable(torch.randn(3, 20)) 
output - [] 
for i in range(6): 
hx - rnn(input[i], hx) 
output.append(hx) 


Linear layers 


class torch.nn.Linear(in features, out features, bias-True) 


对 输入 数据 做 线性 变换 : My = Ax + bl) 
参数 : 


e in features - 每 个 输入 样本 的 大 小 
。 out_features - 每 个 输出 样本 的 大 小 
e bias - 若 设置 为 False， 这 层 不 会 学 习 偏 置 。 上 默认 值 : True 


形状 : 


e 输入 : W(N, in features)y) 
e 输出 : W(N, out\ features)! 


XE . 


dk 
LE. 


e weight -形状 为 (out_ features x in_features) 的 模块 中 可 学 习 的 权 值 
e bias -形状 为 (out features) 的 模块 中 可 学 习 的 偏 置 


例子 : 


>>> m = nn.Linear(20, 30) 

>>> input = autograd.Variable(torch.randn(128, 20)) 
>>> output = m(input) 

>>> print(output.size()) 


Dropout layers 


class torch.nn.Dropout(pz0.5, inplace-False) 


随机 将 输入 张 量 中 部 分 元 素 设 置 为 0。 对 于 每 次 前 向 调用 ， 被 置 0 的 元 素 都 是 随机 的 。 
参数 : 


e p- 将 元 素 置 0 的 概率 。 默 认 值 : 0.5 
e in-place - 若 设 置 为 True， 会 在 原 地 执行 操作 。 软 认 值 : False 


形状 : 


e 输入 : 。 输 入 可 以 为 任意 形状 。 
e 输出 : 。 输 出 和 输入 形状 相同 。 


例子 : 


>>> m = nn.Dropout(p=0.2) 
>>> input = autograd.Variable(torch.randn(20, 16)) 
>>> output = m(input) 


class torch.nn.Dropout2d(p=0.5, inplace-False) 


随机 将 输入 张 量 中 整个 通道 设置 为 0。 对 于 每 次 前 向 调用 ， 被 置 0 的 通道 都 是 随机 的 。 
通常 输入 来 自 Conv2d 模 块 。 


像 在 论文 Efficient Object Localization Using Convolutional Networks， 如 果 特 征 图 中 相 邻 像素 
是 强 相关 的 (在 前 几 层 卷 积 层 很 常见 ) ， 那 么 iid dropout 不 会 归 一 化 激活 ， 而 只 会 降低 学 习 


在 这 种 情形 ， nn.Dropout2d() 可 以 提高 特征 图 之 间 的 独立 程度 ， 所 以 应 该 使 用 它 。 
参数 : 


e p(float, optional) - 将 元 素 置 0 的 概率 。 
e in-place(bool, optional) - 若 设置 为 True， 会 在 原 地 执行 操作 。 


形状 : 


IA : ((N, C, H, W)) 
e 输出 : \((N, C, H, W)) (与 输入 形状 相同 ) 


例子 : 


>>> m = nn.Dropout2d(p-0.2) 
>>> input = autograd.Variable(torch.randn(20, 16, 32, 32)) 
>>> output = m(input) 


class torch.nn.Dropout3d(p-0.5, inplace-False) 


随机 将 输入 张 量 中 整个 通道 设置 为 0。 对 于 每 次 前 向 调用 ， 被 置 0 的 通道 都 是 随机 的 。 
通常 输入 来 自 Conv3d 模 块 。 


像 在 论文 Efficient Object Localization Using Convolutional Networks， 如 果 特 征 图 中 相 邻 像素 
是 强 相 关 的 〈 在 前 几 层 卷 积 层 很 常见 ) ， 那 么 jid dropout 不 会 归 一 化 激活 ， 而 只 会 降低 学 习 


在 这 种 情形 ， nn.Dropoutad() 可 以 提高 特征 图 之 间 的 独立 程度 ， 所 以 应 该 使 用 它 。 
参数 : 


e p(float, optional) - 将 元 素 置 0 的 概率 。 
e in-place(bool, optional) - 若 设置 为 True， 会 在 原 地 执行 操作 。 
形状 : 


。 输 入 : NN, C, D, H, W)) 
。 输出 : N(N, C, D, H, W)) (与 输入 形状 相同 ) 


>>> m = nn.Dropout3d(p-0.2) 
>>> input = autograd.Variable(torch.randn(20, 16, 4, 32, 32)) 
>>> output = m(input) 


Sparse layers 


class torch.nn.Embedding(num embeddings, embedding dim, padding idx-None, max norm-Non 
e, norm type-2, scale grad by freq-False, sparse-False) 


一 个 保存 了 固定 字典 和 大 小 的 简单 查找 表 。 


这 个 模块 常用 来 保存 词 贱 入 和 用 下 标 检 索 它们 。 模 块 的 输入 是 一 个 下 标的 列表 ， 输 出 是 对 应 
E) dE AL o 


参数 : 


e num embeddings (int) - 诺 入 字典 的 大 小 

embedding dim (int) - 4 4-3 A 6 X 83 KD 

padding, idx (int, optional) - 如 果 提 供 的 话 ， 输 出 遇 到 此 下 标 时 用 零 填 充 

e max norm (float, optional) - 如 果 提 供 的 话 ， 会 重新 归 一 化 词 具 入， 使 它们 的 范 数 小 于 提 
供 的 值 


e norm type (float, optional) - 对 于 max_norm 选 项 计算 p 范 数 时 的 p 
e scale grad by. freq (boolean, optional) - 如 果 提 供 的话 ， 会 根据 字典 中 单词 频率 缩放 梯 
度 


e weight (Tensor) -形状 为 (num_embeddings, embedding _ dim) 的 模块 中 可 学 习 的 权 值 


形状 : 


e 输入 : LongTensor (N, W), N = mini-batch, W = 每 个 mini-batch 中 提取 的 下 标 数 
e 输出 : (N, W, embedding dim) 


例子 : 


>>> 
>>> 
>>> 
22» 
>>> 


# an Embedding module containing 10 tensors of size 3 
embedding = nn.Embedding(10, 3) 

# a batch of 2 samples of 4 indices each 

input = Variable(torch.LongTensor([[1,2,4,5], [4,3,2,9]])) 
embedding(input) 


Variable containing: 


(0 , 
-1. 
9. 
9. 
9. 


(aes: 
0. 
-0. 
0: 
-0. 


a) S 
0822 1,2522 0.2434 
8393 -0.6062 -0.3348 
6597 40.0350 20.0837 
5521 20.9447 20.0498 


D 

6597 20.0350 20.0837 
1527 20.0877 20.4260 
8393 -0.6062 -0.3348 
8738 -0.9054 20.4281 


[torch.FloatTensor of size 2x4x3] 


>>> 
>>> 
>>> 
>>> 


# example with padding_idx 

embedding = nn.Embedding(10, 3, padding_idx=0) 
input = Variable(torch.LongTensor([[0,2,0,5]])) 
embedding(input) 


Variable containing: 


(80 , 
9. 
9. 
9. 
9. 


S 
0000 0.0000 20.0000 
3452 0.4937 -0.9361 
0000 0.0000 0.0000 
0706 -2.1962 -0.6276 


[torch.FloatTensor of size 1x4x3] 


Distance functions 


class torch.nn.PairwiseDistance(p=2, eps=1e-06) 


按 批 计算 向 量 v1, v2 之 问 的 距离 : 


$$\Vert x Wert p := Veft( sumWi-1)^n Wert x i Wert ^ p \right) ^ {1/p}$$ 


参数 : 


e x (Tensor): 包含 两 个 输入 batch 的 张 量 
e p (real): 范 数 次 数 ， 默 认 值 : 2 


形状 : 


e 输入: ， 其 中 D= 向 量 维 数 
° 输出 : 


2y 
2 
zz 


>>> pdist = nn.PairwiseDistance(2) 
>>> inputi = autograd.Variable(torch.randn(100, 128)) 
>>> input2 = autograd.Variable(torch.randn(100, 128)) 
>>> output = pdist(inputi, input2) 


Loss functions 
基本 用 法 : 


criterion = Pu LA ] 造 函数 有 自己 的 参数 
loss = criterion(x, ] 4 AÈ ik 


计算 出 来 的 结果 已 经 对 mini-batch W T PH ° 


class torch.nn.L1Loss(size average-True):«.«« 
创建 一 个 衡量 输入 x ( 模型 预测 输出 ) 和 目标 y 之 间 差 的 绝对 值 的 平均 值 的 标准 。 
$$ loss(x,y)=1/n\sum|x_i-y i| 
$$ 

e x 和 y 可 以 是 任意 形状 ， 每 个 包含 n 个 元 素 。 

。 对 n 个 元 素 对 应 的 差 值 的 绝对 值 求 和 ， 得 出 来 的 结果 除 以 n。 

e 如 果 在 创建 LiLoss 实例 的 时 候 在 构造 函数 中 传 入 size_average=False ， 那 么 求 出 来 的 绝 

对 值 的 和 将 不 会 除 以 n 

class torch.nn.MSELoss(size_average=True)rsource 
创建 一 个 衡量 输入 x ( 模型 预测 输出 ) 和 目标 y 之 间 均 方 误差 标准 。 
$$ loss(x,y)=1/n\sum(x_i-y_i)^2 
$$ 


e x 和 y 可 以 是 任意 形状 ， 每 个 包含 n 个 元 素 。 

。 对 | 个 元 素 对 应 的 差 值 的 绝对 值 求 和 ， 得 出 来 的 结果 除 以 n。 

e 如 果 在 创建 MsELoss 实例 的 时 候 在 构造 函数 中 传 入 size_average=False ^ 7f E 8j 
平方 和 将 不 会 除 以 n 


class torch.nn.CrossEntropyLoss(weight=None， 
size_average=True)rsource 


此 标准 将 LogsoftMax 和 NLLLoss 集成 到 一 个 类 中 。 
当 训 练 一 个 多 类 分 类 类 器 的 时 候 ， 这 个 方法 是 十 分 有 用 的 。 


e weight(tensor): 1-D tensor?» n 个 元 素 ， 分 别 代 表 n 类 的 权重 ， 如 果 你 的 训练 样本 很 不 
均衡 的 话 ， 是 非常 有 用 的 。 默 认 值 为 None 。 


调用 时 参数 : 

e input: 包含 每 个 类 的 得 分 ， 2-D tensor, shape 为 batch*n 

e target 大 小 为 n 的 1D tensor ， 包 含 类 别 的 索引 ( 6 到 n-1 ) 。 
Loss 可 以 表述 为 以 下 形式 : 


$$ \begin{aligned} loss(x, class) &= -text(logMrac(exp(x[class])^sum j exp(x[j])A &= - 
x[class] + log(\sum j exp(x[j])) vend(aligned) 


$$ 3 weight 参数 被 指定 的 时 候 ， loss 的 计算 公式 变 为 : 
$$ loss(x, class) = weights[class] * (-x[class] + log(sum j exp(x[j]))) 
$$ 计算 出 的 loss 对 mini-batch 的 大 小 取 了 平均 。 
形状 ( shape ) : 
e Input (N,C) c 是 类 别 的 数量 
e Target: (N) N 是 mini-batch 的 大 小 ，0 <= targets[i] <= C-1 


class torch.nn.NLLLoss(weight=None, size_average=True) 


[source] 


od 


负 的 log likelihood loss 损失 。 用 于 训练 一 个 n 类 分 类 器 


o 


如 果 提 供 的 话 ， weight 参数 应 该 是 一 个 1-D tensor， 里 面 的 值 对 应 类 别 的 权重 。 当 你 的 训练 
集 样本 不 均衡 的 话 ， 使 用 这 个 参数 是 非常 有 用 的 。 


输入 是 一 个 包含 类 别 log-probabilities 的 2-D tensor， 形 状 是 (mini-batch n) 


可 以 通过 在 最 后 一 层 加 Logsoftmax 来 获得 类 别 的 log-probabilities ° 

如 果 您 不 想 增 加 一 个 额外 层 的 话 ， 您 可 以 使 用 crossEntropyLoss ° 

此 loss 期 望 的 target 是 类 别 的 索引 (0 to N-1, where N = number of classes) 
此 loss 可 以 被 表示 如 下 : 

$$ loss(x, class) = -x[class] 

$$ 如 果 weights 参数 被 指定 的 话 ， loss 可 以 表示 如 下 : 

$$ loss(x, class) = -weights[class] * x[class] 

$$ 参数 说 明 : 


e weight (Tensor, optional) — 手动 指定 每 个 类 别 的 权重 。 如 果 给 定 的 话 ， 必 须 是 长 度 


为 nclasses 


e size average (bool, optional) — 默认 情况 下 ， 会 计算 mini-batch^^loss 的 平均 值 。 然 
而 ， 如 果 size _average=False 那么 将 会 把 mini-batch 中 所 有 样本 的 loss 累加 起 来 。 


形状 : 
e Input: (N,C), c 是 类 别 的 个 数 
e Target: (N) > target 中 每 个 值 的 大 小 满足 o <= targets[i] <= C-1 


例子 : 


m = nn.LogSoftmax( ) 
JSS = = nn. Hau 
input is of nBatch x nClasses ! 
E - autograd. variable(toreh. randn(S, 5» pue grad-True) 
# each element in targ has have val classes 
target - autograd. AERIS OLEI quc 9, 4])) 
output - loss(m(input), target) 
output.backward( ) 


class torch.nn.NLLLoss2d(weight-None, 
size average-True):«.«« 


对 于 图 片 的 negative log likehood loss ? 计算 每 个 像素 的 NLL loss ? 
参数 说 明 : 


e weight (Tensor, optional) — 用 来 作为 每 类 的 权重 ， 如 果 提 供 的 话 ， 必 须 为 1-0 tensor ’ 
大 小 为 c : 类 别 的 个 数 。 


e size average 一 默认 情况 下 ， 会 计算 mini-batch loss 均 值 。 如 果 设 置 为 False 的 话 ， 
将 会 累加 mini-batch 中 所 有 样本 的 loss 值 。 默 认 值 : True ° 


形状 : 
e Input (N,C,H,W) c 类 的 数量 
e Target: (N,H,W) where each value is 0 <= targets[i] <= C-1 


例子 : 


m = nn.Conv2d(16, 32, (3, 3)).float() 
loss - nn. a 
nput is Ol a ] 1 
TODUN = autograd. Variable(torch. rande, 26, 10, 49). 
F ec ch CEG SS 
target = Noe VE ECTS 人 a 8). adoi Go LOD] 
output = loss(m(input), target) 
output .backward() 


class torch.nn.KLDivLoss(weight=None， 
size_average=True)isource] 


计算 KL 散 度 损失 。 
KL 数 度 常 用 来 描述 两 个 分 布 的 距离 ， 并 在 输出 分 布 的 空间 上 执行 直接 回归 是 有 用 的 。 


与 NLLLoss 一 样 ， 给 定 的 输入 应 该 是 log-probabilities ? 然而 。 和 NLLLoss 不 同 的 
Æ>’ input 不 限于 2-p tensor， 因 为 此 标准 是 基于 element 的 。 


target 应 该 和 input 的 形状 相同 。 

此 loss 可 以 表示 为 : 

$$ loss(x,target)-Vrac(14nAsum i(target i*(log(target i)-x i)) 

$$ 默认 情况 下 ，loss 会 基于 element 求 平均 。 如 果 size average-False loss 会 被 累加 起 
iig torch.nn.BCELoss(weightzNone, size average-True) 
计算 target 5 output ZH8S— E] X SUB o 

$$ loss(o,t)--Mfrac(1MnMsum i(t[i] log(o[i]) * (1-t[i]) log(1-o[i])) 

$$ 如 果 weight 被 指定 : 

$$ loss(o,t)--frac(1HnAsum iweights[i] (t[i] log(o[i])* (1-t[i])* log(1-o[i])) 

$$ 


这 个 用 于 计算 auto-encoder 的 reconstruction error ° È% O«-target[i]«-1 ° 


默认 情 JILT > loss 会 基于 element 平均 ， 如 果 size _average=False 的 话 ， loss 会 被 票 加 2 


class torch.nn.MarginRankingLoss(margin=0, 
size_average=True)isource] 


创建 一 个 标准 ， 给 定 输入 $x1$,$x2$ 两 个 1-D mini-batch Tensors， 和 一 个 $y$(1-D mini-batch 

tensor) ,$y$ 里 面 的 值 只 能 是 -1 或 1。 

如 果 y=1 ， 代 表 第 一 个 输入 的 值 应 该 大 于 第 二 个 输入 的 值 ， 如果 y=-1 的 话 ， 则 相反 。 
mini-batch 中 每 个 样本 的 loss 的 计算 公式 如 下 : 

$$loss(x, y) = max(0, -y * (x1 - x2) + margin)$$ 


如 果 size average-True ,那么 求 出 的 loss 将 会 对 mini-batch 求 平 均 HŽ? 求 出 的 loss 会 
Ama o 默认 情况 下 ” size average-True ? 


class torch.nn.HingeEmbeddingLoss(size average-7True) 


[source] 


给 定 一 个 输入 2 D mini-batch tensor) 和 对 应 的 标签 $y$ (1-D tensor1,-1)， 此 函数 用 来 计 
算 之 间 的 损失 值 。 这 个 loss 通常 用 来 测量 两 个 输入 是 否 相似 ， 即 : 使 用 L1 成 对 距离 。 典 型 

是 用 在 学 习 非 线性 embedding 或 者 半 监 督学 习 中 : 

$$ loss(x,y)=\frac{1{nyhsum_ i \begin{cases} x_i, &Xext if~y_i==1 \ max(0, margin-x i), &if 

—-y i---1 vend(cases] 

$$ $x$ 和 $y$ 可 以 是 任意 形状 ， 且 都 有 n 的 元 素 ， loss 的 求 和 操作 作用 在 所 有 的 元 素 上 ， 然 

后 除 以 n œ 如 果 您 不 想 除 余 以 n 的 话 ， 可 以 通过 设置 size _average=False ? 


margin 的 默认 值 为 1, 可 以 通过 构造 函数 来 设置 。 
class torch.nn.MultiLabelMarginLoss(size_average=True) 
[source] 


计算 多 标签 分 类 的 hinge loss ( margin-based loss ) * 计算 loss 时 需要 两 个 输入 : input 
( 2-D mini-batch Tensor )， 和 output y( 2-D tensor 表示 mini-batch 中 样本 类 别 的 索引 )。 


X 


$$ loss(x, y) = Vrac(1)x.size(O)sum 1i-0,j20)^(1,J(max(0, 1 - (x[y[T] - x[i]))) 
$$ 其 中 r-x.size(0),J-y.size(0) 。 对 于 所 有 的 i 和 j > X $y[j|neqO, i neq y[jI$ 
x 和 y 必须 具有 同样 的 size ? 


这 个 标准 仅 考 虑 了 第 一 个 非 零 y[j] targets 此 标准 允许 了 ， 对 于 每 个 样本 来 说 ， 可 以 有 多 个 
类 别 o 


class torch.nn.SmoothL1Loss(size_average=True)rsourcal 


平滑 版 L1 loss ° 
loss 的 公式 如 下 : 


$$ loss(x, y) = \frac{1H{nM\sum_i \begin{cases} 0.5*(x i-y i2, & f-[x i-y il<1\|x i-y i| - 
0.5, & otherwise 
\end{cases} 


$$ 此 Iloss 对 于 异常 点 的 敏感 性 不 如 MSELoss ， 而 有 全， 在 某 些 情况 下 防止 了 梯度 爆炸 ，( 参 
Fast R-CNN )。 这 个 loss 有 时 也 被 称 为 Huber loss ° 


X fe y 可 以 是 任何 包含 n 个 元 素 的 tensor。 黑 认 情 况 下 ， 求 出 来 的 loss ARA n ， 可 以 通 
过 设置 size average-True f&loss Š 7m ° 


class torch.nn.SoftMarginLoss(size average-True):...-« 


创建 一 个 标准 ， 用 来 优化 2 分 类 的 logistic loss 。 输 入 为 x (一 个 2-D mini-batch 
Tensor) 和 目标 y (一 个 包含 1 或 -1 的 Tensor) ° 


$$ loss(x, y) = \frac{1}H{x.nelement()N\sum i (log(1 + exp(-y[i]* x[i]))) 

$9 如 果 求 出 的 loss 不 想 被 平均 可 以 通过 设置 size average-False ? 
class torch.nn.MultiLabelSoftMarginLoss(weight-None, 
size average-True):«.«« 


创建 一 个 标准 ， 基 于 输入 X 和 目标 y 的 max-entropy ， 优 化 多 标签 one-versus-all 的 损 
失 。 x :2-D mini-batch Tensor; y :binary 2D Tensor。 对 每 个 mini-batch 中 的 样本 ， 对 应 的 
loss 为 : 


$$ loss(x, y) = - Vrac(14x.nElement()^sum (i-0Ml y[iMext(logMrac(exp(x[i])H(1 + exp(x[i])) 
+ (1-y[i])NexttlogjMfrac(1) (1*exp(x[i])3 

$$ 其 中 I=x.nElement()-1 , $y[i] Vn (0,1)$ > y 和 x 必须 要 有 同样 size ° 

class torch.nn.CosineEmbeddingLoss(margin-0, 


size_average=True)rsource 


给 定 输入 Tensors ， x1, x2 和 一 个 标签 Tensor y (元 素 的 值 为 1 或 -1)。 此 标准 使 
用 cosine 距离 测量 两 个 输入 是 否 相 似 ， 一 般 用 来 用 来 学 习 非 线性 embedding 或 者 半 监 督学 
J o 


margin 应 该 是 -1 到 1 之 间 的 值 ， 建 议 使 用 0 到 0.5。 如 果 没 有 传 入 margin. 实 参 ， 上 默认 值 为 0。 
每 个 样本 的 loss 是 : 


$$ loss(x, y) = egin(cases) 1 - cos(x1, x2), &if~y == 1 \ max(0, cos(x1, x2) - margin), &if-y 
== -1 vend(cases) 


$$ 如 果 size average-True 求 出 的 loss 会 对 batch 求 均值 ， 如 果 size average-False 的 话 ， 则 


会 系 加 loss ° 默认 情况 size average-True ? 


class torch.nn.MultiMarginLoss(pz21, margin=1, 
weight-None, size average-7True):«.«« 


用 来 计算 multi-class classification loss (magin-based loss) 。 输 入 是 x (2D mini- 
batch Tensor), y (1D Tensor) & 别 的 索引 ， o <= y <= x.size(1)) ° 


对 每 个 mini-batch 样 本 : 
$$ loss(x, y) = \racf1}{x.size(0)hsum_{i=O}AI(max(0, margin - x[y] + x[i])^p) 


$$ 其 中 r-x.size(o0) $iineqy$° 可 选择 的 ， 如 果 您 不 想 所 有 的 类 拥有 同样 的 权重 的 话 ， 您 
可 以 通 过 在 构造 函数 中 传 入 weights 参数 来 解决 这 个 问题 ， weights 是 一 个 1D 权 重 Tensor 9 


f ^.weights/s > loss xfi Zik 7E A : 
$$ loss(x, y) = Vrac(1)0x.size(0)sum imax(0, w[y] * (margin - x[y] - x[i]))^p 


$$ 默认 情况 下 ， 求 出 的 loss 会 对 mini-batch 取 平均 ， 可 以 通过 设置 size average-False 来 取消 
取 平 均 操作 。 


Vision layers 


class torch.nn.PixelShuffle(upscale_ factor)rsourca 


将 shape 为 $IN, Cr^2, H, WI$ 的 Tensor € WA $IN, C, Hr, W*r]$ 的 Tensor。 当 使 
用 stride=1/r 的 Sub-pixel 卷 积 的 时 候 ， 这 个 方法 是 非常 有 用 的 。 


请 看 paperReal-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel 
Convolutional Neural Network by Shi et. al (2016) 获取 详细 信息 。 


参数 说 明 : 
e upscale factor (int) — 增加 空间 分 辨 率 的 因子 
Shape: 


e Input: $[N,C*upscale factor^2,H,W$] 


e Output: $[N,C,Hupscale factor, Wupscale factor]$ 


例子 : 


>>> ps = nn.PixelShuffle(3) 

>>> input = autograd.Variable(torch.Tensor(i, 9, 4, 4)) 
>>> output = ps(input) 

>>> print(output.size()) 

torch.Size([1, 1, 12, 12]) 


class torch.nn.UpsamplingNearest2d(sizezNone, 
scale factor-None):...-4 


*LT £ channel 输入 进行 2-0 最 近邻 上 采样 。 
可 以 通过 size 或 者 scale factor 来 指定 上 采样 后 的 图 片 大 小 。 


当 给 定 size 时 ， size 的 值 将 会 是 输出 图 片 的 大 小 。 


e size (tuple, optional) 一 一 个 包含 两 个 整数 的 元 组 (H_out, W_out) 指 定 了 输出 的 长 宽 
e scale factor (int, optional) 一 长 和 宽 的 一 个 乘 子 


形状 : 


e Input: (N,C,H_in,W_in) 
e Output: (N,C,H out,W out) Hout-floor(H in:kscale factor) 
Wout-floor(W in*kscale factor) 


例子 : 


>>> inp 
Variable containing: 
(0 po rese), = 
d 2 
3 4 
[torch.FloatTensor of size ix1x2x2] 


>>> m = nn.UpsamplingNearest2d(scale factor-2) 
»»» m(inp) 

Variable containing: 

(0 y 0 ARAA ) = 


class torch.nn.UpsamplingBilinear2d(size=None, 
scale factor-None):...-« 


对 于 多 channel 输入 进行 2-p bilinear 上 采样 。 
可 以 通过 size 或 者 scale factor 来 指定 上 采样 后 的 图 片 大 小 。 


当 给 定 size 时 ， size 的 值 将 会 是 输出 图 片 的 大 小 。 


e size (tuple, optional) 一 一 个 包含 两 个 整数 的 元 组 (H_out, W_out) 指 定 了 输出 的 长 宽 
e scale factor (int, optional) 一 长 和 宽 的 一 个 乘 子 


形状 : 


e Input: (N,C,H_in,W_in) 
e Output: (N,C,H out,W out) Hout-floor(H in*kscale factor) 
Wout-floor(W in*kscale factor) 


例子 : 


>>> inp 
Variable containing: 
(0 .00 = 
上 守之 
3 4 
[torch.FloatTensor of size ix1x2x2] 


>>> m = nn.UpsamplingBilinear2d(scale factor-2) 
»»» m(inp) 
Variable containing: 
(0 70 [E .) 3 

10000m 1 3333 59156667. 270090 

16667 T2- 0000 273333 276667 

2.9393 276667 3100001133333 

3.0000 43.3333 3.6667 4.0090 
[torch.FloatTensor of size 1x1x4x4] 


Multi-GPU layers 


class torch.nn.DataParallel(module, device idszNone, 
output devicezNone, dim=0)isourcal 


在 模块 级 别 上 实现 数据 并 行 。 


此 容器 通过 将 mini-batch 划分 到 不 同 的 设备 上 来 实现 给 定 module 的 并 行 。 在 forward 过 程 
P > module 会 在 每 个 设备 上 都 复制 一 遍 ， 每 个 副本 都 会 处 理 部 分 输入 。 在 backward 过 程 

中 ， 副 本 上 的 梯度 会 累加 到 原始 module 上 。 

batch 的 大 小 应 该 大 于 所 使 用 的 GPU 的 数量 。 还 应 当 是 GPU 个 数 的 整数 倍 ， 这 样 划分 出 来 的 每 
一 块 都 会 有 相同 的 样本 数量 。 


请 看 : Use nn.DataParallel instead of multiprocessing 


除了 Tensor ， 任 何 位 置 参 数 和 关键 字 参 数 都 可 以 传 到 DataParallel| 中 。 所 有 的 变量 会 通过 指 
定 的 dim 来 划分 (默认 值 为 0) 。 原 始 类 型 将 会 被 广播 ， 但 是 所 有 的 其 它 类 型 都 会 被 浅 复 制 。 
所 以 如 果 在 模型 的 forward 过 程 中 写 入 的 话 ， 将 会 被 损坏 。 


参数 说 明 : 


e module 一 要 被 并 行 的 module 
e device ids - CUDA 设 备 ， 默 认为 所 有 设备 。 
e output device — 输出 设备 (默认 为 device ids[0]) 


例子 : 


net = torch.nn.DataParallel(model, device ids-[0, 1, 2]) 
output - net(input var) 


Utilities 
工具 函数 


torch.nn.utils.clip grad norm(parameters, max norm, 
norm ty pe=2)isource] 


Clips gradient norm of an iterable of parameters. 


正则 项 的 值 由 所 有 的 梯度 计算 出 来 ， 就 像 他 们 连 成 一 个 向 量 一 样 。 梯 度 


被 in-place operation 修改 。 
参数 说 明 : 


e parameters (lterable[Variable]) — 可 和 迭代 的 variables ， 它 们 的 梯度 即将 被 标准 化 。 
e max norm (float or int) — clip 后 ， gradients p-norm 值 
e norm type (float or int) — 标准 化 的 类 型 ，p-norm. 可 以 是 inf 代表 infinity norm. 


关于 norm 

返回 值 : 

所 有 参数 的 p-norm 值 。 

torch.nn.utils.rnn.PackedSequence( cls, data, batch sizes) 
[source] 


Holds the data and list of batch sizes of a packed sequence. 


All RNN modules accept packed sequences as inputs. 所 有 的 RNN 模块 都 接收 这 种 被 包 庄 后 
的 序列 作为 它们 的 输入 。 


NOTE: 这 个 类 的 实例 不 能 手动 创建 。 它 们 只 能 被 pack padded sequence() 实例 化 。 
参数 说 明 : 
e data (Variable) 一 包含 打包 后 序列 的 variable ° 


e batch sizes (list[int]) — 包含 mini-batch 中 每 个 序列 长 度 的 列表 。 


torch.nn.utils.rnn.pack_padded sequence(input, lengths, 
batc h_fi rst=False )rsource 


这 里 的 pack ， 理 解 成 压 紧 比较 好 。 将 一 个 填充 过 的 变 长 序列 压 紧 。 《填充 时 候 ， 会 有 宛 
余 ， 所 以 压 紧 一 下 ) 


输入 的 形状 可 以 是 (TxBx )。 r 是 最 长 序列 长 度 ，B batch size ， 
”代表 任意 维度 (可 以 是 9)。 如 果 batch_first=True 的 话 ， 那 么 相应 的 input size 就 是 (BxTx*) ° 


variable 中 保存 的 序列 ， 应 该 按 序列 长 度 的 长 短 排序 ， 长 的 在 前 ， 短 的 在 后 。 
即 input[:,0] 代表 的 是 最 长 的 序列 ， input[:, B-1] 保存 的 是 最 短 的 序列 。 


NOTE : 只 要 是 维度 大 于 等 于 2 的 input 都 可 以 作为 这 个 函数 的 参数 。 你 可 以 用 它 来 打 
包 labels ， 然 后 用 RNN 的 输出 和 打包 后 的 labels 来 计算 loss 。 通 过 PackedSequence 对 象 
的 .data 属性 可 以 获取 variable 。 


参数 说 明 : 

e input (Variable) 一 变 长 序列 被 填充 后 的 batch 

。 lengths (list[int]) 一 variable 中 每 个 序列 的 长 度 。 

e batch first (bool, optional) 一 如 果 是 True ，input 的 形状 应 该 是 B*T*size ° 
返回 值 : 


一 个 PackedSequence xpo 


torch.nn.utils.rmn.pad packed sequence(sequence, 
batc h fi rst=False )rsource 


填充 packed sequence ? 


上 面 提 到 的 函数 的 功能 是 将 一 个 填充 后 的 变 长 序列 压 紧 。 这 个 操作 和 
pack padded sequence() 是 相反 的 。 把 压 紧 的 序列 再 填充 回来 。 


返回 的 Varaible 的 值 的 size 是 TxBx* , T 是 最 长 序列 的 长 度 ，B 是 batch_size, 如 果 
batch_first=True ,那么 返回 值 是 BxTx* ° 


Batch 中 的 元 素 将 会 以 它们 长 度 的 逆序 排列 。 
参数 说 明 : 

e sequence (PackedSequence) - 将 要 被 填充 的 batch 

e batch first (bool, optional) — 如 果 为 True， 返 回 的 数据 的 格式 为 BxTx* 。 
返回 值 : 一 个 tuple ， 包 含 被 填充 后 的 序列 ， 和 batch 中 序列 的 长 度 列 表 。 


例子 : 


Import torch 

import torch.nn as nn 

from torch.autograd import Variable 
from torch.nn import utils as nn utils 
batch size = 2 
max length - 3 
hidden size - 2 
n layers =1 


tensor in = torch.FloatTensor([[1, 2, 3], [1, 9, 06]]).resize (2,3,1) 

tensor in = Variable( tensor in ) £Z[batch, seq, feature], [2, 3, 1] 

seq lengths = [3,1] # list of integers holding information about the batch size at eac 
h sequence step 


& pack it 
pack = nn utils.rnn.pack padded sequence(tensor in, seq lengths, batch first-True) 


# initialize 
rnn = nn.RNN(i, hidden size, n layers, batch first-True) 
ho = Variable(torch.randn(n layers, batch size, hidden size)) 


&forward 

out,  - rnn(pack, hO) 

# unpack 

unpacked - nn utils.rnn.pad packed sequence(out) 
print(unpacked) 


X Tpacked sequence 


torch.nn.functional 


Convolution zx 


torch.nn.functional.convid(input, weight, bias=None, stride-i, padding-0, dilation-i, 
groups-i) 


o 


对 几 个 输入 平面 组 成 的 输入 信号 应 用 1D 卷 积 
有 关 详 细 信 息 和 输 出 形状 2 i$ 参见 Convid ° 


参数 : 


input — 输入 张 量 的 形状 (minibatch x in channels x iW) 
weight — 过 滤器 的 形状 (out channels, in channels, kW) 
bias 一 可 选 偏 置 的 形状 (out channels) 

stride — 卷 积 核 的 步 长 ， 默 认为 1 


例子 : 


>>> filters = autograd.Variable(torch.randn(33, 16, 3)) 
>>> inputs = autograd.Variable(torch.randn(20, 16, 50)) 
>>> F.convid(inputs, filters) 


torch.nn.functional.conv2d(input, weight, bias-zNone, stride-i, padding-0, dilation-i!, 
groups-i) 


对 几 个 输入 平面 组 成 的 输入 信号 应 用 2D 卷 积 


o 


有 关 详 细 信 息 和 输 出 形状 ， 请 参见 conv2d 。 
参数 : 


e input- 输入 张 量 (minibatch x in channels x iH x iW) 

e weight — 过 滤器 张 量 (out channels, in channels/groups, kH, kW) 

e bias — T 354& E 5k € (out channels) 

e stride 一 卷 积 核 的 步 长 ， 可 以 是 单个 数字 或 一 个 元 组 (sh x sw)。 默 认为 1 
e padding- 输入 上 隐 含 零 填 充 。 可 以 是 单个 数字 din 。 上 默认 值 :0 

e groups 一 将 输入 分 成 组 ，in_channels 应 该 被 组 数 除 


例子 : 


>>> # With square kernels and equal stride 

>>> fe = Ta Variable(torch.randn(8,4,3,3)) 
>>> inputs = autograd.Variable(torch.randn(1,4,5,5)) 
>>> F.conv2d(inputs, filters, padding=1) 


torch.nn.functional.conv3d(input, weight, bias=None, stride=1, padding=0, dilation=1, 
groups=1) 


o 


对 几 个 输入 平面 组 成 的 输入 信号 应 用 3D 卷 积 
有 关 详 细 信 息 和 输 出 形状 ? 请 参 参见 Conv3d ? 
参数 : 


e input — 输入 张 量 的 形状 (minibatch x in channels x iT x iH x iW) 

e weight — 过 滤器 张 量 的 形状 (out channels, in channels, kT, kH, kW) 

e bias 一 可 选 偏 置 张 量 的 形状 (out channels) 

。 stride 一 卷 积 核 的 步 长 ， 可 以 是 单个 数字 或 一 个 元 组 (sh x sw) » £331 
e padding- 输入 上 隐 含 零 填 充 。 可 以 是 单个 数字 或 元 组 。 黑 认 值 : 0 


例子 : 


>>> filters = autograd.Variable(torch.randn(33, 16, 3, 3, 3)) 
>>> inputs = autograd.Variable(torch.randn(20, 16, 50, 10, 20)) 
>>> F.conv3d(inputs, filters) 


torch.nn.functional.conv transposeid(input, weight, bias-None, stride-i, padding-0, ou 
tput padding-0, groups-i) 


torch.nn.functional.conv transpose2d(input, weight, bias-None, stride-i, padding-0, ou 
tput padding-0, groups-i) 


在 由 几 个 输入 平面 组 成 的 输入 图 像 上 应 用 二 维 转 置 卷 积 ， 有 时 也 称 为 “去 卷 积 ”。 
有 关 详 细 信 息 和 输出 形状 ， 请 参阅 convTranspose2d ° 
参数 : 


e input 一 Wo E 状 (minibatch x in channels x iH x iW) 

e weight — 过 滤器 的 形状 (in channels x out channels x kH x kW) 

e bias — 可 选 偏 置 的 形状 (out channels) 

e stride 一 卷 积 核 的 步 长 ， 可 以 是 单个 数字 或 一 个 元 组 (sh x sw) » SU: 1 

e padding 一 输入 上 隐 含 零 填充 。 可 以 是 单个 数字 或 元 组 。(padh x padw)。 默 认 : 0 

e groups 一 将 输入 分 成 组 ，in_channels 应 该 被 组 数 除 尽 

e output padding - 0 <= padding <stride 的 零 填充 ， 应 该 添加 到 输出 。 可 以 是 单个 数字 或 


元 组 。 默 认 值 :0 


torch.nn.functional.conv transpose3d(input, weight, bias-None, stride=1, padding-0, ou 
tput padding-0, groups-i) 


在 由 几 个 输入 平面 组 成 的 输入 图 像 上 应 用 三 维 转 置 卷 积 ， 有 时 也 称 为 “去 卷 积 " 。 
有 关 详 细 信 息 和 输出 形状 ， 请 参阅 ConvTranspose3d ? 
参数 : 


e input — 输入 张 量 的 形状 (minibatch x in channels x iT x iH x iW) 

e weight — 过 滤器 的 形状 (in channels x out channels x kH x kW) 

e bias 一 可 选 偏 置 的 形状 (out channels) 

stride 一 卷 积 核 的 步 长 ， 可 以 是 单个 数字 或 一 个 元 组 (sh x sw)。 默 认 : 1 
padding 一 输入 上 隐 含 零 填充 。 可 以 是 单个 数字 或 元 组 。(padh x padw)。 默 认 : 0 


Pooling %2 


torch.nn.functional.avg poolid(input, kernel size, stride-None, padding=0, ceil_mode=F 
alse, count include pad-irue) 


对 由 几 个 输入 平面 组 成 的 输入 信号 进行 一 维 平均 池 化 。 
有 关 详 细 信 息 和 输出 形状 ， 请 参阅 AvgPoolid ? 
参数 : 


e kernel size 一 窗口 的 大 小 

e stride — 窗口 的 步 长 。 默 认 值 为 kernel size 

e padding -在 两 边 添加 隐 式 零 填 充 

e ceil mode - 当 为 True 时 ， 将 使 用 ceil 代替 floor 来 计算 输出 形状 
e count include pad 一 当 为 True 时 ， 这 将 在 平均 计算 时 包括 补 零 


例子 : 


>>> # pool of square window of size-3, stride-2 
>>> input = EIE er 2530147 5 Ome 
>>> F.avg poolid(input, kernel size=3, stride- 2) 
Variable containing: 
(9 ,.,.) 7 

2 4 6 
[torch.FloatTensor of size ix1x3] 


torch.nn.functional.avg pool2d(input, kernel size, stride-None, padding-0, ceil mode-F 
alse, count include pad-irue) 


在 kh x kw 区 域 中 应 用 步 长 为 dh x dw 的 二 维 平均 池 化 操作 。 输 出 特征 的 数量 等 于 输入 平面 的 数 


-E. 
o 


里 
有 关 详 细 信 息 和 输出 形状 ， 请 参阅 AvgPool2d ° 
参数 : 


e input — 输入 的 张 量 (minibatch x in channels x iH x iW) 

e kernel size — 池 化 区 域 的 大 小 ， 可 以 是 单个 数字 或 者 元 组 (kh x kw) 

e stride 一 池 化 操作 的 步 长 ， 可 以 是 单个 数字 或 者 元 组 (sh x sw)。 默 认 等 于 核 的 大 小 

e padding 一 在 输入 上 隐 式 的 零 填充 ， 可 以 是 单个 数字 或 者 一 个 元 组 (padh x padw) > RA: 
0 

e ceil_mode 一 定义 空间 输出 形状 的 操作 

e count include pad — 除 以 原始 非 填充 图 像 内 的 元 素数 量 或 kh * kw 


torch.nn.functional.avg pool3d(input, kernel size, stride=None) 


在 kt x kh x kw 区 域 中 应 用 步 长 为 dt x dh x dw 的 二 维 平均 池 化 操作 。 输 出 特征 的 数量 等 于 
input planes / dt ° 


torch.nn.functional.max poolid(input, kernel size, stride-None, padding-0, dilation-i, 
ceil mode-False, return indices-False) 


torch.nn.functional.max pool2d(input, kernel size, stride-None, padding-0, dilation-i, 
ceil mode-False, return indices-False) 


torch.nn.functional.max pool3d(input, kernel size, stride-None, padding-0, dilation-i, 
ceil mode-False, return indices-False) 


torch.nn.functional.max unpoolid(input, indices, kernel size, stride-zNone, padding-o, 
output sizezNone) 


torch.nn.functional.max unpool2d(input, indices, kernel size, stride-zNone, padding-o, 
output size-zNone) 


torch.nn.functional.max unpool3d(input, indices, kernel size, stride-zNone, padding-o, 
output size-None) 


torch.nn.functional.lp pool2d(input, norm type, kernel size, stride-None, ceil mode=Fa 
lse) 


torch.nn.functional.adaptive max poolid(input, output size, return indices-False) 


在 由 几 个 输入 平面 组 成 的 输入 信号 上 应 用 1D 自 适应 最 大 池 化 。 
有 关 详 细 信 息 和 输出 形状 ， 请 参阅 AdaptiveMaxPoolid ° 
参数 : 


e output size 一 目标 输出 大 小 (单个 整数 ) 
e return indices 一 是否 返回 池 化 的 指数 


torch.nn.functional.adaptive max pool2d(input, output size, return indices=False) 


在 由 几 个 输入 平面 组 成 的 输入 信号 上 应 用 2D 自 适应 最 大 池 化 。 
有 关 详 细 信 息 和 输出 形状 ， 请 参阅 AdaptiveMaxPool2d ° 
参数 : 


e output size 一 目标 输出 大 小 ( 单 整数 或 双 整 数 元 组 ) 
e return indices — 是 否 返 回 池 化 的 指数 


torch.nn.functional.adaptive avg poolid(input, output size) 
在 由 几 个 输入 平面 组 成 的 输入 信号 上 应 用 1D 自 适应 平均 池 化 。 
有 关 详 细 信 息 和 输出 形状 ， 请 参阅 AdaptiveAvgPoolid ° 
参数 : 


e output size — 目标 输出 大 小 〈 单 整数 或 双 整 数 元 组 ) 


torch.nn.functional.adaptive avg pool2d(input, output size) 


在 由 几 个 输入 平面 组 成 的 输入 信号 上 应 用 2D 自 适应 平均 池 化 。 
有 关 详 细 信 息 和 输出 形状 ， 请 参阅 AdaptiveAvgPool2d ° 
参数 : 


e output size 一 目标 输出 大 小 ( 单 整数 或 双 整 数 元 组 ) 
> A C p Ë 
非 线 性 激活 函数 
torch.nn.functional.threshold(input, threshold, value, inplace-False) 


torch.nn.functional.relu(input, inplace-rFalse) 


torch. 


torch. 


torch. 


torch. 


torch. 


torch.nn.functional. 
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functional. 


hardtanh(input, min val--1.0, max val-i.0, inplace-ralse) 


relu6(input, inplace-False) 


elu(input, alpha-1.0, inplace-False) 


leaky relu(input, negative slope-0.01, inplace-False) 


prelu(input, weight) 


rrelu(input, lower-z0.125, upper-z0.3333333333333333, 


logsigmoid(input) 


hardshrink(input, lambdz0.5) 


tanhshrink(input) 


softsign(input) 


softplus(input, beta-i, threshold-290) 


softmin(input) 


softmax(input) 


softshrink(input, lambd=0.5) 


log softmax(input) 


tanh(input) 


training-False 


torch.nn.functional.sigmoid(input) 


Normalization X 


torch.nn.functional.batch norm(input, running mean, running var, weightzNone, bias=None 
, training-False, momentum=0.1, eps-ie-05) 


«| | 





线性 函数 


torch.nn.functional.linear(input, weight, bias=None) 


Dropout 函 效 


torch.nn.functional.dropout(input, p=0.5, training-False, inplace-False) 


距离 函数 (Distance functions) 


torch.nn.functional.pairwise distance(x1, x2, p=2, eps-ie-06) 


计算 向 量 vV1、vVv2 之 间 的 距离 (成 次 或 者 成 对 ， 意 思 是 可 以 计算 多 个 ， 可 以 参看 后 面 的 参数 ) 
$$ \left | x \right |{p}:=Veft ( sum(iz1)^(N)Neft | x (ij^(p) \right | \right )^{1/p} 
$$ 参数 : 


e X1: 第 一 个 输入 的 张 量 
e X2: 第 二 个 输入 的 张 量 
e p: 矩 阵 范 数 的 维度 。 默 认 值 是 2， 即 二 范 数 。 


规格 : 


e 输 


TA (ND) FDE TAERA 
。 输出 :(N,1) 


例子 : 


>>> inputi 
>>> Input2 
>>> Output 
>>> output. 


autograd.Variable(torch.randn(100, 128)) 
autograd.Variable(torch.randn(100, 128)) 
F.pairwise_distance(input1, input2, p=2) 
ackward( ) 


olt si 


损失 有 函数 (Loss functions) 


torch.nn.functional.nll loss(input, target, weightzNone, size average-True) 


ft &4log likelihood 损 失 有 函数 . 详细 请 看 NLLLoss. 
参数 : 


e input - (N,C) C 是 类 别 的 个 数 

e target - (N) 其 大 小 是 0 <= targets[i] <= C-1 

e weight (Variable, optional) — 一 个 可 手动 指定 每 个 类 别 的 权重 。 如 果 给 定 的 话 ， 必 须 是 大 
小 为 nclasses 的 Variable 

e size average (bool, optional) 一 默认 情况 下 ， 是 mini-batch loss 的 平均 值 ， 然 而 ， 如 果 
size_average=False， 则 是 mini-batch loss 的 总 和 。 


Variables: 


e weight — 对 于 constructor 而 言 ， 每 一 类 的 权重 作为 输入 


torch.nn.functional.kl div(input, target, size_average=True) 


KL 散 度 损失 函数 ， 详 细 请 看 KLDivLoss 
参数 : 


。 input 一 任意 形状 的 Variable 

e target 一 与 输入 相同 形状 的 Variable 

e size average 一 如 果 为 TRUE，|loss 则 是 平均 值 ， 需 要 除 以 输入 tensor 中 element 的 数 
目 


torch.nn.functional.cross entropy(input, target, weight-zNone, size average-irue) 


该 函数 使 用 了 log softmax 和 nll loss， 详 细 请 看 CrossEntropyLoss 


žr : 


e input- (N,C) 其 中 ，C 是 类 别 的 个 数 
e target - (N) 其 大 小 是 0 <= targets[i] <= C-1 
e weight (Variable, optional) — 一 个 可 手动 指定 每 个 类 别 的 权重 。 如 果 给 定 的 话 ， 必 须 是 大 


小 为 nclasses 的 Variable 
e size average (bool, optional) 一 默认 情况 下 ， 是 mini-batch loss 的 平均 值 ， 然 而 ， 如 果 
size_average=False， 则 是 mini-batch loss 的 总 和 。 


torch.nn.functional.binary cross entropy(input, target, weight-zNone, size average-True 


) 
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。 input 一 任意 形状 的 Variable 

e target 一 与 输入 相同 形状 的 Variable 

e weight (Variable, optional) — 一 个 可 手动 指定 每 个 类 别 的 权重 。 如 果 给 定 的 话 ， 必 须 是 大 
小 为 nclasses 的 Variable 

e size average (bool, optional) 一 默认 情况 下 ， 是 mini-batch loss 的 平均 值 ， 然 而 ， 如 果 
size_average=False， 则 是 mini-batch loss 的 总 和 。 


torch.nn.functional.smooth li loss(input, target, size average-irue) 


Vision functions 


torch.nn.functional.pixel shuffle(input, upscale factor) 
[source] 


将 形状 为 [*, craz, H, W] 的 Tensor 重新 排列 成 形状 为 [c, w*r, wr] f Tensor. 
详细 请 看 PixelShuffle. 
形 参 说 明 : 


e input (Variable) 一 输入 
e upscale factor (int) 一 增加 空间 分 辩 率 的 因子 . 


例子 : 


ps = nn.PixelShuffle(3) 

input = autograd.Variable(torch.Tensor(1, 9, 4, 4)) 
output = ps(input) 

print(output.size()) 

torch.Size([1, 1, 12, 12]) 


torch.nn.functional.pad(input, pad, modez'constant', 
value-O)[source] 


2^ 
AH, Tensor . 


目前 为 止 ,只 支持 2D 和 ap 填充 . Currently only 2D and 3D padding supported. 354i A 
为 4D Tensor 的 时 候 , pad 应 该 是 一 个 4 元 素 的 tuple (pad l, pad r, pad t, pad b ) , 当 输 入 
为 sp Tensor 的 时 候 , pad 应 该 是 一 个 6 元 素 





的 tuple (pleft，pright，ptop，pbottom，pfront，pback) . 
形 参 说 明 : 

e input (Variable) -4D 或 5D tensor 

e pad (tuple) 一 4 元 素 或 6- 元 素 tuple 

e mode - ‘constant’, ‘reflect or ‘replicate’ 


e value 一 用 于 constant padding 的 值 . 


Automatic differentiation package - 
torch.autograd 


torch.autograd 提供 了 类 和 函数 用 来 对 任意 标量 函数 进行 求 导 。 要 想 使 用 自动 求 导 ， 只 需要 
对 已 有 的 代码 进行 微小 的 改变 。 只 需要 将 所 有 的 tensor 包含 进 variable 对 象 中 即 可 。 


torch.autograd.backward(variables, grad variables, 
retain variables-False) 


Computes the sum of gradients of given variables w.r.t. graph leaves. 给 定 图 的 叶子 节 

点 variables ; 计算 图 中 变量 的 梯度 和 9 计算 图 可 以 通过 链 式 法 则 求 导 。 如 果 variables 中 的 
任何 一 个 variable 是 非 标量 ( non-scalar ) 的 ， 且 requires grad=True 。 那么 此 函数 需要 指 
定 grad variables ， 它 的 长 度 应 该 和 variables 的 长 度 匹 配 > 里 面 保存 了 相关 variable 的 梯 
度 ( 对 于 不 需要 gradient tensor 的 variable ， None 是 可 取 的 ) i 


此 函数 累积 leaf variables 计算 的 梯度 。 你 可 能 需要 在 调用 此 函数 之 前 将 leaf variable 的 梯 
置 


。 variables (variable 列表 ) — 被 求 微分 的 叶子 节点 ， 即 ys 。 


e grad variables ( Tensor 7| &)— 对 应 variable 的 梯度 。 仅 当 variable 不 是 标量 且 需 要 
求 梯度 的 时 候 使 用 。 


e retain variables (bool) — True ,计算 梯度 时 所 需要 的 buffer 在 计算 完 梯 度 后 不 会 被 释 
放 。 如 果 想 对 一 个 子 图 多 次 求 微分 的 话 ， 需 要 设置 为 True ° 


Variable 


API 兼容 性 


Variable API 几乎 和 Tensor API 一 致 (除了 一 些 in-place 方法 ， 这 些 in-place 方法 会 修改 
required_grad=True 的 input 的 值 )。 多 数 情况 下 ， 将 Tensor 替换 为 variable ， 代 码 一 样 
会 正常 的 工作 。 由 于 这 个 原因 ， 我 们 不 会 列 出 variable 的 所 有 方法 ， 你 可 以 通 

过 torch.Tensor 的 文档 来 获取 相关 知识 。 


In-place operations on Variables 


在 autograd 中 支持 in-place operations 是 非常 困难 的 。 同 时 在 很 多 情况 下 ， 我 们 阻止 使 

用 in- place operations ° Autograd 的 贪 禁 的 释放 buffer 和 复 用 使 得 它 效 率 非 常 高 e 只 有 
在 非常 OU 的 HU ? ， 使 用 in- place operations 可 以 降低 内 存 的 使 用 。 除 非 你 面临 很 大 的 内 存 
压力 ， 否 则 不 要 使 用 in-place operations ? 


In-place 正确 性 检查 


所 有 的 variable 都 会 记录 用 在 他 们 身上 的 in-place operations 。 如 果 pytorch 检测 

到 variable 在 一 个 Function 中 已 经 被 保存 用 来 backward ， 但 是 之 后 它 又 

被 in-place operations 修改 。 当 这 种 情况 发 生 时 ， 在 backward 的 时 候 ， 就 会 报 

错 。 22 1 如 果 你 用 了 in-place operations ， 但 是 在 backward 过 程 中 没有 报错 ， 
那么 梯度 的 计算 就 是 正确 的 。 


class torch.autograd.Variable [source] 


包装 一 个 Tensor ,并 记录 用 在 它 身 上 的 operations ? 

Variable 是 Tensor 对 象 的 一 个 thin wrapper ^? 它 同 时 保存 着 Variable 的 梯度 和 创建 这 
个 Variable 的 Function 的 引用 。 这 个 引用 可 以 用 来 追溯 创 | 建 这 个 variable 的 整 条 链 。 如 
果 variable 是 被 用 户 所 创建 的 ， 那 么 它 的 creator 是 None ， 我 们 称 这 种 对 象 为 


leaf Variables ? 


由 于 autograd 只 支持 标量 值 的 反 向 求 导 ( 即 Doy 是 标量 )， 梯度 的 大 小 总 是 和 数据 的 大 小 匹 
配 。 同 时 ， 仅 仅 给 leaf variables 分 配 梯度 ， 其 他 variable 的 梯度 总 是 为 0. 


变量 : 
e data 一 包含 的 Tensor 
e grad 一 保存 着 Variable 的 梯度 。 这 个 属性 是 懒 分 配 的 ， 且 不 能 被 重新 分 配 。 


e requires grad 一 布尔 值 ， 指示 这 个 variable 是 否 是 被 一 个 包含 variable 的 子 图 创建 


的 。 更 多 细节 请 看 Excluding subgraphs from backward ° 只 能 改变 leaf variable 的 这 个 


ix 


P 


e volatile 一 布尔 值 ， 指示 这 个 variable 是 否 被 用 于 推断 模式 ( 即 ， 不 保存 历史 信 。 更 多 


细节 请 看 Excluding subgraphs from backward ° 只 能 改变 leaf variable 的 这 个 标签 。 


e creator 一 创建 这 个 Variable 的 Function ， 对 于 leaf variable ， 这 个 属性 为 None 9 A 


读 属 性 。 
属性 : 
e data (any tensor class) 一 被 包含 的 Tensor 


e requires grad (bool) — requires grad 标记 . 只 能 通过 keyword 传 入 . 


e volatile (bool) 一 volatile 标记 . 只 能 通过 keyword ft A. 


backward(gradientzNone, retain variables-False)[source] 
当前 variable 对 leaf variable 求 偏 导 。 


计算 图 可 以 通过 链 式 法 则 求 导 。 如 果 variable 是 非 标 量 ( non-scalar ) 的 ? 
E requires_grad=True ° 那么 此 函数 需要 指定 gradient ? 它 的 形状 应 该 和 Variable 的 长 度 
匹配 ， 里 面 保存 了 variable 的 梯度 
此 函数 累积 leaf variable 的 梯度 。 你 可 能 需要 在 调用 此 函数 之 前 将 variable AR AX o 
参数 : 
e gradient (Tensor) — 其 他 函数 对 于 此 variable 的 导数 。 仅 当 variable 不 是 标量 的 时 候 使 
用 ， 类 型 和 位 形状 应 该 和 self.data 一 致 。 
e retain variables (bool) — True , 计算 梯度 所 必要 的 buffer 在 经 历 过 一 次 backward 过 程 
后 不 会 被 释放 。 如 果 你 想 多 次 计算 某 个 子 图 的 梯度 的 时 候 ， 设 置 为 True 。 在 某 些 情况 
下 ， 使 用 autograd.backward( ) 效率 更 高 8 


detach()[source] 


Returns a new Variable, detached from the current graph. 返回 一 个 新 的 variable ， 从 当前 
图 中 分 离 下 来 的 。 


返回 的 variable requires_grad=False ， 如 果 输 入 volatile=True ， 那 么 返回 的 variable 
volatile-True ° 


ee 
UE 


返回 的 variable 和 原始 的 variable 公用 同一 个 data tensor 。 in-place 修改 会 在 两 
个 variable 上 同时 体现 (因为 它们 共享 data tensor )， 可 能 会 导致 错误 。 


detach ()[source] 


将 一 个 variable 从 创建 它 的 图 中 分 离 ， 并 把 它 设置 成 leaf variable ° 


register hook(hook)[source] 

注册 一 个 backward 钧 子 。 

每 次 gradients 被 计算 的 时 候 ， 这 个 hook 都 被 调用 。 hook 应 该 拥有 以 下 签名 : 
hook(grad) -> Variable or None 

hook 不 应 该 修改 它 的 输入 ， 但 是 它 可 以 选择 性 的 返回 一 个 替代 当前 梯度 的 新 梯度 。 


这 个 函数 返回 一 个 勿 柄 ( handle ) ° 它 有 一 个 方法 handle.remove() ， 可 以 用 这 个 方法 
将 hook 从 module 移 除 。 


Example 


Variable(torch.Tensor([0, 60, 90]), requires grad-True) 
v.register hook(lambda grad: grad * 2) # double the gradient 
Du QE es u T 

is # hook 

DIRE dad. PEE 


ccs 


2 

2 

2 

[torch.FloatTensor of size 3] 

>>> h.remove() # removes the hook 


def w hook(grad): 
print("hello") 
return None 
w1 = Variable(torch.FloatTensor([4i, 1, 1i]),requires grad-True) 


wl.register hook(w hook) # 如 果 hook 返 回 的 是 None 的 话 ， 那 么 梯度 还 是 原来 计算 的 梯度 


w1.backward(gradient-torch.FloatTensor([4i, 1, 1])) 
print(wi.grad) 


hello 
Variable containing: 
1 
ab 
b 
[torch.FloatTensor of size 3] 


reinforce(reward)[source] 


注册 一 个 奖励 ， 这 个 奖励 是 由 一 个 随机 过 程 得 到 的 。 


微分 一 个 随机 节点 需要 提供 一 个 奖励 值 。 如 果 你 的 计算 图 中 包含 随机 operations ， 你 需要 在 
他 们 的 输出 上 调用 这 个 函数 。 否 则 的 话 ， 会 报错 。 


参数 : 


e reward (Tensor) — 每 个 元 素 的 reward。 必 须 和 varaible 形状 相同 ， 并 在 同一 个 设备 上 。 


class torch.autograd.Function[source] 


Records operation history and defines formulas for differentiating ops. 记录 operation 的 历 
史 ， 定 义 微 分 公式 。 每 个 执行 在 varaibles 上 的 operation 都 会 创建 一 个 Function 对 象 ， 这 
个 Function 对 象 执 行 计 算 工 作 ， 同 时 记录 下 来 。 这 个 历史 以 有 向 无 环 图 的 形式 保存 下 来 ， 有 
向 图 的 节点 为 functions ， 有 向 图 的 边 代表 数据 依赖 关 - input«-output ) ° 之 后 ， 

当 backward 被 调用 的 时 候 ， 计 算 图 以 拓扑 顺序 处 理 ， 通 过 调用 每 个 Function 对 象 

的 backward() ， 同 时 将 返回 的 梯度 传递 给 下 一 个 Function ° 


通常 情况 下 ， 用 户 能 和 Functions 交互 的 唯一 方法 就 是 创建 Function 的 子 类 ， 定 义 新 
的 operation ? 这 是 扩展 torch.autograd 的 推荐 方法 © 


“TE Function 逻辑 在 很 多 脚本 上 都 是 热点 ， 所 有 我 们 把 几乎 所 有 的 Function 都 使 用 c X 


现 ， 这 种 策略 保证 框架 的 开销 是 最 小 的 。 
每 个 Function 只 被 使 用 一 次 (在 forward 过 程 中 )。 


变 
e saved tensors 一 调用 forward() 时 需要 被 保存 的 Tensors 的 tuple ° 


e needs py grad — 长 度 为 输入 数量 的 布尔 值 组 成 的 tuple 。 指 示 给 定 的 input 是 否 
需要 梯度 。 这 个 被 用 来 优化 用 于 backward 过 程 中 的 buffer > Æ% backward 中 的 梯度 计 
A o 


e num inputs — forward 的 输入 参数 数量 。 
e num outputs — forward 返回 的 Tensor XE ° 
e requires grad — 布尔 值 。 指 示 backward 以 后 会 不 会 被 调用 。 
e previous functions 一 长 度 为 num inputs 的 Tuple of (int, Function) pairs。 Tuple 中 的 每 
单元 保存 着 创建 input 的 Function 的 引用 ， 和 索引 。 
backward(* grad output)[source] 
定义 了 operation 的 微分 公式 。 
所 有 的 Function 子 类 都 应 该 重 写 这 个 方法 。 
所 有 的 参数 都 是 Tensor 。 他 必须 接收 和 forward 的 输出 相同 个 数 的 参数 。 而 且 它 需要 返回 
和 forward 的 输入 参数 相同 个 数 的 Tensor ° PP : backward 的 输入 参数 是 此 operation 的 输 
出 的 值 的 梯度 。 backward 的 返回 值 是 此 operation 输入 值 的 梯度 。 
forward( input)[source] 
执行 operation 。 
所 有 的 Function 子 类 都 需要 重 写 这 个 方法 。 


可 以 接收 和 返回 任意 个 数 tensors 


mark dirty(* args)[source] 
将 输入 的 tensors 标记 为 被 in-place operation 修改 过 9 


这 个 方法 应 当 至 多 调用 一 次 ， 仅 仅 用 在 forward 方法 里 ， 而 且 mark _dirty 的 实 参 只 能 
是 forward 的 实 参 。 


每 个 在 forward 方法 中 被 in-place operations 修改 的 tensor 都 应 该 传递 给 这 个 方法 。 这 
样 ， 可 以 保证 检查 的 正确 性 。 这 个 方法 在 tensor 修改 前 后 调用 都 可 以 。 

mark non differentiable(* args)[source] 

将 输出 标记 为 不 可 微 。 


这 个 方法 至 多 只 能 被 调用 一 次 ， 只 能 在 forward 中 调用 ， 而 且 实 参 只 能 是 forward 的 返回 


=~ 
Er 
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这 个 方法 会 将 输出 标记 成 不 可 微 ， 会 增加 backward 过 程 中 的 效率 。 在 backward 中 ， 你 依 昌 
需要 接收 forward 输出 值 的 梯度 ， 但 是 这 些 梯度 一 直 是 None 。 


This is used e.g. for indices returned from a max Function. 


mark shared storage(* pairs)[source] 
将 给 定 的 tensors pairs 标记 为 共享 存储 空间 。 


这 个 方法 至 多 只 能 被 调用 一 次 ， 只 能 在 forward 中 调用 ， 而 且 所 有 的 实 参 必须 


是 (input, output) 3} ° 


如 果 一 些 inputs 和 outputs 是 共享 存储 空间 的 ， 所 有 的 这 样 的 (input, output) 对 都 应 该 
传 给 这 个 函数 ， 保 证 in-place operations 检查 的 正确 性 。 唯 一 的 特例 就 是 ， 当 

output 和 input 是 同一 个 tensor ( in-place operations 的 输入 和 输出 ) 8 这 种 情况 下 ， 就 没 
必要 指定 它们 之 间 的 依赖 关系 ， 因 为 这 个 很 容易 就 能 推断 出 来 。 


这 个 函数 在 很 多 时 候 都 用 不 到 。 主 要 是 用 在 索引 和 转 置 这 类 的 op Fe 
save for backward(* tensors)[source] 

将 传 入 的 tensor 保存 起 来 ， 留 着 backward 的 时 候 用 。 

这 个 方法 至 多 只 能 被 调用 一 次 ， 只 能 在 forward 中 调用 。 


之 后 ， 被 保存 的 tensors 可 以 通过 saved tensors 属性 获取 在 返回 这 些 tensors 之 
前 ” pytorch 做 了 一 些 检查 ， 保证 这 些 tensor 没有 被 in-place operations 修改 过 9 


实 参 可 以 是 None 。 


torch.optim 


torch.optim 是 一 个 实现 了 各 种 优化 算法 的 库 。 大 部 分 常用 的 方法 得 到 支持 ， 并 且 接 口 具 备 足 
够 的 通用 性 ， 使 得 未 来 能 够 集成 更 加 复杂 的 方法 。 


如 何 使 用 optimizer 


Rio torch.optim ， 你 DR LM 这 个 对 象 能 够 保持 当前 参数 状态 并 基 


构建 


为 了 构建 一 个 Optimizer ， 你 需要 给 它 一 个 包 a 需要 优化 的 参数 (必须 都 是 variable 对 
象 ) 的 iterable。 然 后 ， 你 可 以 设置 optimizer 的 参 数 选项 ， 比 如 学 习 府 ， 权 重 衰减 ， 等 等 。 


例子 : 
optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum=0.9) 
optimizer = optim.Adam([vari, var2], lr = 0.0001) 


为 每 个 参数 单独 设置 选项 


Optimizer 也 支持 为 每 个 参数 单独 设置 选项 。 若 想 这 么 做 ， 不 要 直接 传 入 variable 的 
iterable， 而 是 传 入 dict 的 iterable。 每 一 个 dict 都 分 别 定 义 了 一 组 参数 ， 并 且 包 含 一 

个 param 键 ， 这 个 键 对 应 参数 的 列表 。 其 他 的 键 应 该 optimizer 所 接受 的 其 他 参数 的 关键 字 相 
匹配 ， 并 且 会 被 用 于 对 这 组 参数 的 优化 。 


WEGE 


你 仍然 能 够 传递 选项 作为 关键 字 参 数 。 在 未 重 写 
J 


这 些 选项 的 组 中 ， 它 们 会 被 用 作 默 认 值 。 当 
你 只 想 改动 一 个 参数 组 的 选项 ， 但 其 他 参数 组 的 选项 


不 变 时 ， 这 是 非常 有 用 的 。 
例如 ， 当 我 们 想 指定 每 一 层 的 学 习 率 时 ， 这 是 非常 有 用 的 : 


optim.SGD([ 
('params': model.base.parameters()), 
('params': model.classifier.parameters(), 'lr': 1e-3j 
], lr=ie-2, momentum-6.9) 


这 意味 着 model.base 的 参数 将 会 使 用 1e-2 的 学 习 率 ^ model.classifier 的 参数 将 会 使 
用 1e-3 的 学 习 率 ， 并 且 0.9 的 momentum 将 会 被 用 于 所 有 的 参数 。 


进行 单 次 优化 


所 有 的 optimizer 都 实现 了 step() 方法 ， 这 个 方法 会 更 新 所 有 的 参数 。 它 能 按 两 种 方式 来 使 
用 : 


optimizer.step() 


这 是 大 多 数 optimizer 所 支持 的 简化 版 本 。 一 旦 梯度 被 如 backward() 之 类 的 函数 计算 好 后 ， 我 
们 就 可 以 调用 这 个 函数 。 


例子 


for input, target in dataset: 
optimizer.zero grad() 
output - model(input) 
loss - loss fn(output, target) 
loss.backward() 
optimizer.step() 


optimizer.step(closure) 


一 些 优化 算法 例如 Conjugate Gradient 和 LBFGS 需 要 重复 多 次 计算 函数 ， 因 此 你 需要 传 入 一 
个 闭 包 去 允许 它们 重新 计算 你 的 模型 。 这 个 闭 包 应 当 清 空 梯度 ， 计 算 损 失 ， 然 后 返回 。 


例子 : 


for input, target in dataset: 
def closure(): 
optimizer.zero grad() 
output - model(input) 
loss - loss fn(output, target) 
loss.backward() 
return loss 
optimizer.step(closure) 


算法 


class torch.optim.Optimizer(params, defaults) [source] 


Base class for all optimizers. 


参数 : 
e params (iterable) — variable 或 者 dict 的 iterable。 指 定 了 什么 参数 应 当 被 优化 。 
e defaults — (dict) : 包含 了 优化 选项 默认 值 的 字典 (一 个 参数 组 没有 指定 的 参数 选项 将 


会 使 用 默认 值 ) 。 


load state dict(state dict) [source] 


加 载 optimizer 状 态 


参数 : 


state dict ( dict ) 一 一 optimizer 的 状态 。 应 当 是 一 个 调用 state dict() 所 返回 的 对 象 。 


state dict() [source] 
以 dict 返回 optimizer 的 状态 。 
包含 两 项 。 
。 state - 一 个 保存 了 当前 优化 状态 的 dict。optimizer 的 类 别 不 同 ，state 的 内 容 也 会 不 同 。 
e param groups - 一 个 包含 了 全 部 参数 组 的 dict » 
step(closure) [source] 
进行 单 次 优化 (参数 更 新 ). 
参数 : 
e closure ( callable )— 一 个 重新 评价 模型 并 返回 loss 的 闭 包 ， 对 于 大 多 数 参 数 来 说 是 可 选 
的 。 
zero_grad() [source] 


清空 所 有 被 优化 过 的 Variable 的 梯度 


class torch.optim.Adadelta(params, Ir=1.0, rho=0.9, eps=1e- 
06, weight_decay=0)[source] 

实现 Adadelta 算 法 。 

它 在 ADADELTA: An Adaptive Learning Rate Method. 中 被 提出 。 

参数 : 


e params (iterable) — 待 优化 参数 的 iterable 或 者 是 定义 了 参数 组 的 dict 
e rho ( float ,可 选 ) 一 用 于 计算 平方 梯度 的 运行 平均 值 的 系数 (默认 : 0.9) 
e eps ( float ,可 选 ) 一 为 了 增加 数值 计算 的 稳定 性 而 加 到 分 母 里 的 项 (默认 : 1e-6) 
e |r( float , 可 选 ) 一 在 delta 被 应 用 到 参数 更 新 之 前 对 它 缩放 的 系数 (默认 : 1.0) 
e weight decay ( float , "[ 35) — BRERA (L247) (默认 : 0) 
step(closure) [source] 
进行 单 次 优化 (参数 更 新 ) 
参数 : 


e closure ( callable ) 一 一 个 重新 评价 模型 并 返回 loss 的 闭 包 ， 对 于 大 多 数 参 数 来 说 是 可 选 


的 。 


class torch.optim.Adagrad(params, Ir=0.01, Ir decay-0, 
weight decay-20)[source] 


实现 Adagrad 算 法 。 
它 在 Adaptive Subgradient Methods for Online Learning and Stochastic Optimization 中 被 提 
出 。 

参数 : 


e params (iterable) — 待 优化 参数 的 iterable 或 者 是 定义 了 参数 组 的 dict 

e |r( float ,可 选 )- 学 习 率 〈 黑 认 : 1e-2) 

e |r decay ( float , ?[ 35) — 学 习 率 衰减 (ERA: 0) 

e weight decay ( float , "[ 35) — BRERA (L247) (默认 : 0) 
step(closure) [source] 
进行 单 次 优化 (参数 更 新 ). 
参数 : 


e closure ( callable ) 一 一 个 重新 评价 模型 并 返回 loss 的 闭 包 ， 对 于 大 多 数 参 数 来 说 是 可 选 
的 。 


class torch.optim.Adam(params, Ir=0.001, betas-(0.9, 
0.999), epsz1e-08, weight decay-0)[source] 
实现 Adam 算 法 。 
它 在 Adam: A Method for Stochastic Optimization 中 被 提出 。 
参数 : 
e params (iterable) — 待 优化 参数 的 iterable 或 者 是 定义 了 参数 组 的 dict 
e |r( float, 可 选 ) 一 学 习 举 (默认 : 1e-3) 
e betas (Tuple[ float , float ], 可 选 ) 一 用 于 计算 梯度 以 及 梯度 平方 的 运行 平均 值 的 系数 
(默认 : 0.9 > 0.999) 


e eps ( float , 可 选 ) 一 为 了 增加 数值 计算 的 稳定 性 而 加 到 分 母 里 的 项 (默认 : 1e-8) 
weight decay ( float ,可 选 ) 一 权重 衰减 (L2 怎 罚 ) (默认 : 0) 


step(closure) [source] 


进行 单 次 优化 (参数 更 新 ). 


参数 : 


e closure ( callable ) - 一 个 重新 评价 模型 并 返回 loss 的 闭 包 ， 对 于 大 多 数 参 数 来 说 是 可 选 
的 。 


class torch.optim.Adamax(params, Ir=0.002, betas=(0.9, 
0.999), eps=1e-08, weight decay-0)[source] 

实现 Adamax 算 法 (Adam 的 一 种 基于 无 穷 范 数 的 变种 ) 。 

它 在 Adam: A Method for Stochastic Optimization 中 被 提出 。 

参数 : 


e params (iterable) — 待 优化 参数 的 iterable 或 者 是 定义 了 参数 组 的 dict 

e |r( float , 135) — 学 习 率 (RU: 2e-3) 

e betas (Tuple[ float , float ], 可 选 ) 一 用 于 计算 梯度 以 及 梯度 平方 的 运行 平均 值 的 系数 
e eps ( float , 可 选 ) 一 为 了 增加 数值 计算 的 稳定 性 而 加 到 分 母 里 的 项 (默认 : 1e-8) 

e weight decay ( float , 735) — 权重 衰减 (L247) (默认 : 0) 


step(closure) [source] 
进行 单 次 优化 (参数 更 新 ). 
参数 : 


e closure ( callable ) 一 一 个 重新 评价 模型 并 返回 loss 的 闭 包 ， 对 于 大 多 数 参 数 来 说 是 可 选 
的 。 


class torch.optim.ASGD(params, Ir=0.01, lambd=0.0001, 
alphaz0.75, t021000000.0, weight_decay=0)[source] 


实现 平均 随机 梯度 下 降 算 法 。 
它 在 Acceleration of stochastic approximation by averaging 中 被 提出 。 
参数 : 


e params (iterable) — 待 优化 参数 的 iterable 或 者 是 定义 了 参数 组 的 dict 
e |r( float , 35) — 学 习 率 (默认 : 1e-2) 

e lambd ( float , ?[ 35) — 衰减 项 (默认 : 16-4) 

e alpha ( float , 35) — eta 更 新 的 指数 (默认 : 0.75) 

e tO( float ,可 选 ) 一 指明 在 哪 一 次 开始 平均 化 (默认 : 166) 

e weight decay ( float , 735) — 权重 衰减 (L247) (默认 : 0) 


step(closure) [source] 


进行 单 次 优化 (参数 更 新 ). 
参数 : 
e closure ( callable ) 一 一 个 重新 评价 模型 并 返回 loss 的 闭 包 ， 对 于 大 多 数 参 数 来 说 是 可 选 


的 。 


class torch.optim.LBFGS(params, lr=1, max_iter=20, 
max evalzNone, tolerance_grad=1e-05, 

tolerance changez1e-09, history size-100, 

line search fnzNone)[source] 

实现 L-BFGS 算 法 。 

这 个 optimizer 不 支持 为 每 个 参数 单独 设置 选项 以 及 不 支持 参数 组 (只 能 有 一 个 ) 
目前 所 有 的 参数 不 得 不 都 在 同一 设备 上 。 在 将 来 这 会 得 到 改进 。 


>y a 


这 是 一 个 内 存 高 度 密集 的 optimizer ( 它 要 求 额 外 的 param bytes * (history size + 1) 个 字 
节 ) 。 如 果 它 不 适应 内 存 ， 党 试 减 小 history size， 或 者 使 用 不 同 的 算法 。 


参数 : 


e Ir( float ) - ŽI (默认 : 1) 

e max iter ( int ) 一 每 一 步 优化 的 最 大 迭代 次 数 ( 上 默认 : 20) ) 

e max eval ( int ) 一 每 一 步 优 化 的 最 大 函数 评价 次 数 (RU : max* 1.25) 

e tolerance grad ( float ) — 一 阶 最 优 的 终止 容忍 度 (默认 : 1e-5) 

e tolerance change ( float ) 一 在 函数 值 /参数 变化 量 上 的 终止 容忍 度 (默认 : 1e-9) 
e history size ( int ) 一 更 新 历史 的 大 小 (默认 : 100) 


step(closure) [source] 
进行 单 次 优化 (参数 更 新 ). 
参数 : 


e closure ( callable ) 一 一 个 重新 评价 模型 并 返回 loss 的 闭 包 ， 对 于 大 多 数 参 数 来 说 是 可 选 
的 。 


class torch.optim.RMSprop(params, Ir=0.01, alphaz0.99, 
eps=1e-08, weight decayz0, momentumz0, centered-False) 
[source] 


实现 RMSprop 算 法 。 

由 G. H int on 在 他 的 课程 中 提出 . 

中 心 版 本 首次 出 现在 Generating Sequences With Recurrent Neural Networks. 
参数 : 


e params (iterable) — 待 优化 参数 的 iterable 或 者 是 定义 了 参数 组 的 dict 

e |r( float, 135) — ££ 32 (RU: 1e-2) 

e momentum ( float , "T 36) — 动量 因子 (默认 : 0) 

e alpha ( float , 可 选 ) 一 平滑 常数 (默认 : 0.99) 

e eps( float ,可 选 ) 一 为 了 增加 数值 计算 的 稳定 性 而 加 到 分 母 里 的 项 (默认 : 1e-8) 
centered ( bool ,可 选 ) — 如 果 为 True， 计 算 中 心 化 的 RMSProp， 并 且 用 它 的 方差 预测 值 
对 梯度 进行 归 一 化 

e weight decay ( float ,可 选 ) — 权重 衰减 (L247) (默认 : 0) 


step(closure) [source] 

进行 单 次 优化 (参数 更 新 ). 

参数 : 

e closure ( callable ) 一 一 个 重新 评价 模型 并 返回 loss 的 闭 包 ， 对 于 大 多 数 参 数 来 说 是 可 选 
的 。 


class torch.optim.Rprop(params, Ir=0.01, etas=(0.5, 1.2), 
step sizes-(1e-06, 50)) [source] 


实现 弹性 反 向 传播 算法 。 
参数 : 
e params (iterable) — 待 优化 参数 的 iterable 或 者 是 定义 了 参数 组 的 dict 
e |r( float , 135) — ££ 3] (RU: 1e-2) 
e etas (Tuple[ float , float ], 可 选 ) - 一 对 (etaminus > etaplis) , 它们 分 别 是 乘法 的 增加 
和 减 小 的 因子 (默认 : 0.5，1.2) 


e step sizes (Tuple[ float , float ], 可 选 ) 一 允许 的 一 对 最 小 和 最 大 的 步 长 (默认 : 1e- 
6 * 50) 


step(closure) [source] 


进行 单 次 优化 (参数 更 新 ). 
参数 : 
e closure ( callable ) 一 一 个 重新 评价 模型 并 返回 loss 的 闭 包 ， 对 于 大 多 数 参 数 来 说 是 可 选 


的 。 


class torch.optim.SGD(params, Irz, momentum=0, 
dampening=0, weight_decay=0, nesterov-False)[source] 


实现 随机 梯度 下 降 算 法 (momentum 可 选 ) 。 

Nesterov 动 量 基 于 On the importance of initialization and momentum in deep learning 中 的 公 
式 . 

参数 : 


e params (iterable) — 待 优化 参数 的 iterable 或 者 是 定义 了 参数 组 的 dict 
e Ir( float ) - Ž 7# 

e momentum ( float , "T 35) — 动量 因子 (默认 : 0) 

e weight decay ( float ,可 选 ) 一 权重 衰减 (L2 怎 罚 ) (默认 : 0) 

e dampening ( float ,可 选 ) 一 动量 的 抑制 因子 (默认 : 0) 

e nesterov ( bool , 可 选 ) 一 使 用 Nesterov 动 量 (默认 : False) 


例子 : 


>>> optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9) 
>>> Ooptimizer.zero grad() 

>>> loss fn(model(input), target).backward() 

>>> optimizer.step() 


Note 

带 有 动量 /Nesterov 的 SGD 的 实现 稍微 不 同 于 Sutskever 等 人 以 及 其 他 框架 中 的 实现 。 
考虑 动量 的 具体 情况 ， 更 新 可 以 写成 

v-p*v*g 

p=p-lr*v 

其 中 ，p、g、v 和 p 分 别 是 参数 、 梯 度 、 速 度 和 动量 。 

这 跟 Sutskever 等 人 以 及 其 他 框架 的 实现 是 相反 的 ， 它 们 采用 这 样 的 更 新 
v=p*v+lr*g 


p-p-v 


Nesterov 的 版 本 也 类 似 地 被 修改 了 。 


step(closure) [source] 
进行 单 次 优化 (参数 更 新 ). 
参数 : 


e closure ( callable ) - 一 个 重新 评价 模型 并 返回 loss 的 闭 包 ， 对 于 大 多 数 参 数 来 说 是 可 选 
的 。 


torch.nn.init 


torch.nn.init.calculate gain(nonlinearity,param-None) 


对 于 给 定 的 非 线性 函数 ， 返 回 推荐 的 增益 值 。 这 些 值 如 下 所 示 : 


nonlinearity gain 

linear 1 

conv(1,2,3)d 1 

sigmoid 1 

tanh 5/3 

relu sqrt(2) 

leaky relu sqrt(2/(1*negative slope^2)) 
参数 : 


e nonlinearity - 非 线性 函数 〈 nn.functional 名 称 ) 
e param - 非 线性 函数 的 可 选 参数 


例子 : 


>>> gain = nn.init.gain('leaky relu') 


torch.nn.init.uniform(tensor, a=0, b=1) 


从 均匀 分 布 U(a, b) 中 生成 值 ， 填 充 输 入 的 张 量 或 变量 
参数 : 


e tensor - n 维 的 torch.Tensor 
ea- 均匀 分 布 的 下 界 
e b -均匀 分 布 的 上 界 


例子 


>>> w = torch.Tensor(3, 5) 
>>> nn.init.uniform(w) 


torch.nn.init.normal(tensor, mean=0, std-i) 


从 给 定 均值 和 标准 差 的 正 态 分 布 N(mean, std) 中 生成 值 ， 填 充 输入 的 张 量 或 变量 


参数 : 


e tensor 一 n 维 的 torch.Tensor 
e mean — EAD 7p 8&5 24 4& 
e std 一 正 态 分 布 的 标准 差 


例子 


>>> w = torch.Tensor(3, 5) 
>>> nn.init.normal(w) 


torch.nn.init.constant(tensor, val) 


用 val 的 值 填充 输入 的 张 量 或 变量 
参数 : 


e tensor 一 n 维 的 torch.Tensor 或 autograd.Variable 
e val 一 用 来 填充 张 量 的 值 


例子 : 


>>> w = torch.Tensor(3, 5) 
>>> nn.init.constant(w) 


torch.nn.init.eye(tensor) 


用 单位 矩阵 来 填充 2 维 输入 张 量 或 变量 。 在 线性 层 尽 可 能 多 的 保存 输入 特性 。 


参数 : 
e tensor 一 2 维 的 torch.Tensor 或 autograd.Variable 


例子 : 


>>> w = torch.Tensor(3, 5) 
>>> nn.init.eye(w) 


torch.nn.init.dirac(tensor) 


A| Dirac $\delta$ 函数 来 填充 {3, 4, 5} 维 输入 张 量 或 变量 。 在 卷 积 层 尽 可 能 


小 o 


多 的 保存 输入 通道 特 


žr : 
。 tensor - (3, 4, 5} 维 的 torch.Tensor 或 autograd.Variable 


例子 : 


>>> W = torch.Tensor(3, 16, 5, 5) 
>>> nn.init.dirac(w) 


torch.nn.init.xavier uniform(tensor, gain-i) 


根据 Glorot, X.feBengio, Y.4& "Understanding the difficulty of training deep feedforward neural 
networks” 中 描述 的 方法 ， 用 一 个 均匀 分 布 生成 值 ， 填 充 输 入 的 张 量 或 变量 。 结 果 张 量 中 的 值 
采样 自 U(-a, a)， 其 中 a= gain sqrt( 2/(fan in + fan out)) sqrt(3). 该 方法 也 被 称 为 Glorot 
initialisation 


参数 : 


e tensor — n 维 的 torch.Tensor 
e gain - 可 选 的 缩放 因子 


例子 : 


>>> w = torch.Tensor(3, 5) 
>>> nn.init.xavier uniform(w, gain-math.sqrt(2.0)) 


torch.nn.init.xavier normal(tensor, gain-i) 


根据 Glorot, X.feBengio, Y. T 20104F /& "Understanding the difficulty of training deep 
feedforward neural networks" 中 描述 的 方法 ， 用 一 个 正 态 分 布 生成 值 ， 填 充 输 入 的 张 量 或 变 
量 。 结 果 张 量 中 的 值 采 样 自 均值 为 0， 标 准 差 为 gain * sqrt(2/(fan in + fan_out)) 的 正 态 分 布 。 
也 被 称 为 Glorot initialisation. 


参数 : 


e tensor 一 n 维 的 torch.Tensor 
e gain - 可 选 的 缩放 因子 


例子 : 


>>> w = torch.Tensor(3, 5) 
>>> nn.init.xavier normal(w) 


torch.nn.init.kaiming uniform(tensor, a-0, mode-'fan in') 


根据 He, K 等 人 于 2015 年 在 “Delving deep into rectifiers: Surpassing human-level 
performance on ImageNet classification” 中 描述 的 方法 ， 用 一 个 均匀 分 布 生成 值 ， 卉 充 输入 的 
张 量 或 变量 。 结 果 张 量 中 的 值 采 样 自 U(-bound, bound)， 其 中 bound = sqrt(2/((1 + a^2) 

fan in)) sqrt(3)。 也 被 称 为 He initialisation. 


参数 : 


e tensor 一 n 维 的 torch.Tensor 或 autograd.Variable 

e a -这 层 之 后 使 用 的 rectifier 的 斜率 系数 (ReLU 的 默认 值 为 0) 

e mode -可 以 为 fan_ in" (RU) 或 “fan_out”。“fan_in" 保 留 讲 向 传播 时 权 值 方差 的 量 
级 ，*fan_out" 保 留 反 向 传播 时 的 量 级 。 


例子 : 


>>> w = torch.Tensor(3, 5) 
>>> nn.init.kaiming uniform(w, mode-'fan in') 


torch.nn.init.kaiming normal(tensor, a-0, mode-z'fan in') 


根据 He, K 等 人 在 “Delving deep into rectifiers: Surpassing human-level performance on 
ImageNet classification "中 描述 的 方法 ， 用 一 个 正 态 分 布 生成 值 ， 填 充 输入 的 张 量 或 变量 。 结 
果 张 量 中 的 值 采 样 自 均值 为 0， 标 准 差 为 sqrt(2/((1+ a^2) * fan in) E & 2778 o 


参数 : 


e tensor 一 n 维 的 torch.Tensor 或 autograd.Variable 

e a -这 层 之 后 使 用 的 rectifier 的 斜率 系数 (ReLU 的 默认 值 为 0) 

e mode -T 2 X “fanin” (RU) 或 “fan_out”。“fan_in" 保 留 讲 向 传播 时 权 值 方差 的 量 
级 ，*fan_out" 保 留 反 向 传播 时 的 量 级 。 


例子 : 


>>> w = torch.Tensor(3, 5) 
>>> nn.init.kaiming normal(w, mode-'fan out') 


torch.nn.init.orthogonal(tensor, gain-i) 


用 (2E) SEX AE FE SÉ LARA IKE XLUE o AMANTE E SS 8 Y E218 99 ^ ATE 3 ERE STSK 
Xo ARIBAg7E E AGEUECE METETA- NER o PIE TRAE E CIR 83278 Rz o HP 3E 
零 元 素 生 成 自 均值 为 0， 标 准 差 为 std 的 正 态 分 布 。 


参考 : Saxe, A 等 人 (2013) 的 “Exact solutions to the nonlinear dynamics of learning in deep 
linear neural networks" 


数 : 


e tensor 一 n 维 的 torch.Tensor 或 autograd.Variable， 其 中 n>=2 


e gain -可 选 
例子 : 


>>> w = torch.Tensor(3, 5) 
>>> nn.init.orthogonal(w) 


torch.nn.init.sparse(tensor, sparsity, std-0.01) 
将 2 维 的 输入 张 量 或 变量 当做 稀疏 矩阵 填充 ， 其 中 非 零 元 素 根据 一 个 均值 为 0， 标 准 差 为 std 的 
正 态 分 布 生 成 。 参考 Martens, J.(2010) 的 “Deep learning via Hessian-free optimization". 
参数 : 


e tensor 一 n 维 的 torch.Tensor 或 autograd.Variable 
e sparsity - 每 列 中 需要 被 设置 成 零 的 元 素 比 例 
e std - 用 于 生成 非 零 值 的 正 态 分 布 的 标准 差 


例子 : 


>>> w = torch.Tensor(3, 5) 
>>> nn.init.sparse(w, sparsityz0.1) 


torch.multiprocessing 


封装 了 multiprocessing 模块 。 用 于 在 相同 数据 的 不 同 进程 中 共享 视图 。 


一 旦 张 量 或 者 存储 被 移动 到 共享 单元 ( 见 share_memory_() ), 它 可 以 不 需要 任何 其 他 复制 操作 的 
发 送 到 其 他 的 进程 中 。 


这 个 API 与 原始 模型 完全 兼容 ， 为 了 让 张 量 通过 队列 或 者 其 他 机 制 共 享 ， 移 动 到 内 存 中 ， 我 们 
可 以 


由 原来 的 import multiprocessing BLA import torch.multiprocessing ? 


由 于 API 的 相似 性 ， 我 们 没有 记录 这 个 软件 包 的 大 部 分 内 容 ， 我 们 建议 您 参考 原始 模块 的 非常 
好 的 文档 。 


warning : ee ， 因 为 输入 信号 )，Python 中 的 multiprocessing 有 
时 会 不 能 清理 他 的 子 节 


这 是 一 个 已 知 的 警告 ， 所 以 如 果 您 在 中 断 解释 器 后 看 到 任何 资源 泄漏 ， 这 可 能 意味 着 这 刚刚 
发 生 在 您 身上 。 


Strategy management 


torch.multiprocessing.get all sharing strategies() 
返回 一 组 由 当前 系统 所 支持 的 共享 策略 
torch.multiprocessing.get sharing strategy() 
返回 当前 策略 共享 CPU 中 的 张 量 。 


torch.multiprocessing.set sharing strategy(new strategy) 


设置 共享 CPU 张 量 的 策略 


参数 : new_strategy(str)- 被 选中 策略 的 名 字 。 应 当 是 get all sharing strategies() 中 值 当 中 
的 一 个 。 


Sharing CUDA tensors 


共享 CUDA 张 量 进程 只 支持 Python3， 使 用 spawn 或 者 forkserver 开始 方法 。 


Python2 中 的 multiprocessing 只 能 使 用 fork 创建 子 进程 ， 并 且 不 被 CUDA 支 持 。 
warning: CUDA API 要 求 导 出 到 其 他 进程 的 分 配 一 直 保持 有 效 ， 只 要 它们 被 使 用 。 
你 应 该 小 心 ， 确 保 您 共享 的 CUDA 张 量 不 要 超出 范围 。 


这 不 应 该 是 共享 模型 参数 的 问题 ， 但 传递 其 他 类 型 的 数据 应 该 小 心 。 请 注意 ， 此 限制 不 适用 
于 共享 CPU 内 存 。 


Sharing strategies 


本 节 简 要 概述 了 不 同 的 共享 策略 如 何 工 作 。 
请 注意 ， 它 仅 适 用 于 CPU 张 量 - CUDA 张 量 将 始终 使 用 CUDA API， 因 为 它们 是 唯一 的 共享 方 
式 。 


File descriptor- file descripor 
NOTE: 这 是 默认 策略 (除了 不 支持 的 MacOS 和 OS X) » 


此 策略 将 使 用 文件 描述 符 作为 共享 内 存 句柄 。 当 存储 被 移动 到 共享 内 存 中 ， 一 个 
由 shm open 获得 的 文件 描述 符 被 缓存 ， 


并 且 当 它 将 被 发 送 到 其 他 进程 时 ， 文 件 描述 符 将 被 传送 (例如 通过 UNIX 套 接 字 ) 。 
接收 者 也 将 缓存 文件 描述 符 ， 并 且 mmap 它 ， 以 获得 对 存储 数据 的 共享 视图 。 

请 注意 ， 如 果 要 共享 很 多 张 量 ， 则 此 策略 将 保留 大 量 文件 描述 符 。 

如 果 你 的 系统 对 打开 的 文件 描述 符 数 量 有 限制 ， 并 且 无 法 提高 ， 你 应 该 使 用 file system 策 
u% o 

File system -file_system 

这 个 策略 将 提供 文件 名 称 给 shm_open 去 定义 共享 内 存 区 域 。 

该 策略 不 需要 缓存 从 其 获得 的 文件 描述 符 的 优点 ， 但 是 容易 发 生 共享 内 存 泄漏 。 
该 文件 创建 后 不 能 被 删除 ， 因 为 其 他 进程 需要 访问 它 以 打开 其 视图 。 

如 果 进 程 甬 溃 或 死机 ， 并 且 不 能 调用 存储 析 构 函数 ， 则 文件 将 保留 在 系统 中 。 

这 是 非常 严重 的 ， 因 为 它们 在 系统 重新 启动 之 前 不 断 使 用 内 存 ， 或 者 手动 释放 它们 。 


为 了 记录 共享 内 存 文件 泄露 数量 ” torch.multiprocessing 将 产 生 一 个 守护 进程 叫 


做 torch_shm_manager 


^ 


秆 自己 与 当前 进程 组 隔离 ， 并 且 将 跟踪 所 有 共享 内 存 分 配 。 一 旦 连接 到 它 的 所 有 进程 退出 ， 
它 将 等 待 一 会 必 ， 以 确保 不 会 有 新 的 连接 ， 并 且 将 遍历 该 组 分 配 的 所 有 共享 内 存 文件 。 

如 果 发 现 它们 中 的 任何 一 个 仍然 存在 ， 它 们 将 被 释放 。 我 们 已 经 测试 了 这 种 方法 ， 并 且 它 已 
被 证 明 对 于 各 种 故障 都 是 稳健 的 。 

如 果 你 的 系统 有 足够 高 的 限制 ， 并 且 file descriptor 是 被 支持 的 策略 ， 我 们 不 建议 切换 到 这 


个 。 


3t ;* &, -torch.legacy 


此 包 中 包含 从 Lua Torch 移 植 来 的 代码 。 

为 了 可 以 使 用 现 有 的 模型 并 且 方 便当 前 Lua Torch 使 用 者 过 渡 ， 我 们 创建 了 这 个 包 。 可 以 

在 torch.legacy.nn 中 找到 nn 代码 ， 并 在 torch.legacy.optim 中 找到 optim 代码 。 API 应 该 
完全 匹配 Lua Torch » 


torch.cuda 


包 增加 了 对 CUDA 张 量 类 型 的 支持 ， 实 现 了 与 CPU 张 量 相同 的 功能 ， 但 使 用 GPU 进行 计 


o 


$ sw 


它 是 懒惰 的 初始 化 ， 所 以 你 可 以 随时 导入 它 ， 并 使 用 is available() 来 确定 系统 是 否 支 持 
CUDA ° 


CUDA 语 义 中 有 关于 使 用 CUDA 的 更 多 细节 。 


torch.cuda.current blas handle() 


返回 cublasHandle tfá4T > 48 6 25 8j cuBLAS 句柄 
torch.cuda.current device() 

返回 当前 所 选 设备 的 索引 。 
torch.cuda.current_stream() 

返回 一 个 当 前 所 选 的 Stream 
class torch.cuda.device(idx) 

上 下 文 管理 器 ， 可 以 更 改 所 选 设备 。 


参数 : 


e idx (int) — 设备 索引 选择 。 如 果 这 个 参数 是 负 的 ， 则 是 无 效 操作 。 
torch.cuda.device count() 

返回 可 得 到 的 GPU 数量 。 
class torch.cuda.device of(obj) 

将 当前 设备 更 改 为 给 定 对 象 的 上 下 文 管理 器 。 


可 以 使 用 张 量 和 存储 作为 参数 。 如 果 给 定 的 对 象 不 是 在 GPU 上 分 配 的 ， 这 是 一 个 无 效 操作 。 


参数 : 


e obj (Tensor or Storage) 一 在 选 定 设备 上 分 配 的 对 和 象 。 


torch.cuda.is available() 


返回 一 个 bool 值 ， 指 示 CUDA 当 前 是 否 可 用 。 


torch.cuda.set device(device) 


设置 当前 设备 。 
不 鼓励 使 用 此 函数 来 设置 。 在 大 多 数 情况 下 ， 最 好 使 用 cUDA_VISIBLE_DEVICES 环境 变量 。 
参数 : 

o device (int) — 所 选 设备 。 如 果 此 参数 为 负 ， 则 此 函数 是 无 效 操作 。 


torch.cuda.stream(stream) 


选择 给 定 流 的 上 下 文 管理 器 。 
在 其 上 下 文中 排队 的 所 有 CUDA 核 心 将 在 所 选 流 上 入 队 。 
参数 : 


。 stream (Stream) — 所 选 流 。 如 果 是 None ， 则 这 个 管理 器 是 无 效 的 。 


torch.cuda.synchronize() 
等 待 当前 设备 上 所 有 流 中 的 所 有 核心 完成 。 
torch.cuda.comm.broadcast(tensor, devices) 


$9 —XGPU/ MERKE » 
参数 : 


e tensor (Tensor) — 将 要 广播 的 张 量 
e devices (lierable) - 一 个 可 以 广播 的 设备 的 迭代 。 注 意 ， 它 的 形式 应 该 像 (src，dst1， 
dst2，...) ， 其 第 一 个 元 素 是 广播 来 源 的 设备 。 


返回 : 一 个 包含 张 量 副 本 的 元 组 ， 放 置 在 与 设备 的 索引 相对 应 的 设备 上 。 


torch.cuda.comm.reduce_add(inputs, destination=None) 


将 来 自 多 个 GPU 的 张 量 相 加 。 
所 有 输入 应 具有 匹配 的 形状 。 
参数 : 


e inputs (/terable[Tensor]) — 要 相 加 张 量 的 迭代 
e destination (int, optional) 一 将 放置 输出 的 设备 (默认 值 : 当前 设备 ) 。 


返回 : =e 包含 放置 在 destination 设备 上 的 所 有 输入 的 元 素 总 和 的 张 量 2 


torch.cuda.comm.scatter(tensor, devices, chunk sizes-zNone, dim=0, streams-None) 


ip 4E 39 2$ 4 GPUSRIK X ° 
参数 : 


e tensor (Tensor) 一 要 分 散 的 张 量 

e devices (/terable[int]) -int 的 迭代 ， 指 定 哪些 设备 应 该 分 散 张 量 。 

e chunk sizes (/terable[int], optional) 一 要 放置 在 每 个 设备 上 的 块 大 小 。 它 应 该 匹 
配 devices 的 长 度 并 且 总 和 为 tensor.size(dim) 。 如 果 没 有 指定 ， 张 量 将 被 分 成 相等 的 
块 。 

e dim (int, optional) — 沿 着 这 个 维度 来 chunk 张 量 


返回 : 包含 tensor 块 的 元 组 ， 分 布 在 给 定 的 devices E ° 


torch.cuda.comm.gather(tensors, dim=0, destination=None) 


从 多 个 GPU 收 集 张 量 。 
张 量 尺寸 在 不 同 于 dim 的 所 有 维度 上 都 应 该 匹配 。 
参数 : 


e tensors (/terable[Tensor]) 一 要 收集 的 张 量 的 迭代 。 
e dim (int) — 沿 着 此 维度 张 量 将 被 连接 。 
e destination (int, optional) 一 输出 设备 (-1 表 示 CPU， 默 认 值 : 当前 设备 ) ° 


返回 : 一 个 张 量 位 于 destination 设备 上 d 这 是 沿 着 dim 连接 tensors 的 结果 id 


流 和 事件 


class torch.cuda.Stream 


CUDA 流 的 包装 。 
参数 : 


e device (int, optional) — 分 配 流 的 设备 。 
e priority (int, optional) — 流 的 优先 级 。 较 低 的 数字 代表 较 高 的 优先 级 。 


query() 

检查 所 有 提交 的 工作 是 否 已 经 完成 。 

返回 : 一 个 布尔 值 ， 表 示 此 流 中 的 所 有 核心 是 否 完成 。 
record event(event-None) 

记录 一 个 事件 。 


参数 : event (Event, optional) — 要 记录 的 事件 。 如 果 没 有 给 出 ， 将 分 配 一 个 新 的 。 返 
E: 记录 的 事件 。 


synchronize() 
等 待 此 流 中 的 所 有 核心 完成 。 
wait event(event) 
将 所 有 未 来 的 工作 提交 到 流 等 待 事件 。 
参数 : event (Event) - 等 待 的 事件 
wait stream(stream) 
与 另 一 个 流 同 步 。 


提交 到 此 流 的 所 有 未 来 工作 将 等 待 直到 所 有 核心 在 调用 完成 时 提交 给 给 定 的 流 。 


class torch.cuda.Event(enable timing-False, blocking-False, interprocess-False,  handl 
e=None ) 


CUDA 事 件 的 包装 。 
参数 : 


e enable timing (bool) — 指示 事件 是 否 应 该 测量 时 间 (默认 值 : False) 
e blocking (bool) — 如 果 为 true * wait() 将 被 阻塞 (默认 值 False) 
e interprocess (bool) — 如果 为 tfrue， 则 可 以 在 进程 之 间 共 享 事件 (默认 值 False) 


elapsed time(end event) 

返回 事件 记录 之 前 经 过 的 时 间 。 
ipc_handle() 

A vl yt 3E 4F 85 IPC EA o 
query() 

检查 事件 是 否 已 被 记录 。 

返回 : 一 个 布尔 值 ， 指 示 事 件 是 否 已 被 记录 。 
record(stream-None) 

记录 给 定 流 的 事件 。 
synchronize() 

与 事件 同步 。 
wait(stream-None) 


使 给 定 的 流 等 待 事件 。 


torch.utils.ffi 


torch.utils.ffi.create extension(name, headers, sources, verbose=True, with cuda-False 
, package-False, relative to-'.', **kwargs) 


创建 并 配置 一 个 cffi.FFI 对 象 ,用 于 PyTorch 的 扩展 。 
参数 : 


e name (str) 一 包 名 。 可 以 是 谋 套 模块 ， 例 如 .ext.my lib ° 

e headers (str or List[str]) — 只 包含 导出 函数 的 头 文件 列表 

e sources (List[str]) 一 用 于 编译 的 Sources 列 表 

e verbose (bool, optional) — 如果 设 置 为 False， 则 不 会 打印 输出 (默认 值 : True ) ° 

e with cuda (bool, optional) — 设置 为 True 以 使 用 CUDA 头 文件 进行 编译 (默认 
值 : False ) ° 

e package (bool, optional) 一 设置 为 True 以 在 程序 包 模 式 下 构建 (对 于 要 作为 pip 程 序 包 安 
装 的 模块 ) (默认 和 值 : False ) ° 

。 relative_to (str, optional) -构建 文件 的 路 径 。 package 为 True 时 需要 。 最 好 使 
用 fie 作为 参数 。 

e kwargs 一 传递 给 而 以 声明 扩展 的 附加 参数 。 有 关 详 细 人 信息， 请 参阅 Extension API 
reference ° 


torch.utils.data 


class torch.utils.data.Dataset 


表示 Dataset 的 抽象 类 。 


所 有 其 他 数据 集 都 应 该 进行 子 类 化 。 所 有 子 类 应 该 override _len 和  getitem ， 前 者 提 
供 了 数据 集 的 大 小 ， 后 者 支持 整数 索引 ， 范 围 从 0 到 len(self) » 


class torch.utils.data.TensorDataset(data tensor, target tensor) 


包装 数据 和 目标 张 量 的 数据 集 。 


通过 沿 着 第 一 个 维度 索引 两 个 张 量 来 恢复 每 个 样本 。 
参数 : 

e data tensor (Tensor) 一 ”包含 样本 数据 

e target tensor (Tensor) 一 ”包含 样本 目标 (标签 ) 


class torch.utils.data.DataLoader(dataset, batch_size=1, shuffle-False, sampler=None, 
num workers-0, collate fn-«function default collate», pin memory-False, drop last-Fals 
e) 


数据 加 载 器 。 组 合 数据 集 和 采样 器 ， 并 在 数据 集 上 提供 单 进程 或 多 进程 挝 
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参数 : 


e dataset (Dataset) — 加 载 数 据 的 数据 集 。 

e batch size (int, optional) — 每 个 batch 加 载 多 少 个 样本 (默认 : 1)。 

« shuffle (bool, optional) 一 设置 为 True 时 会 在 每 个 epoch 重 新 打 乱 数据 (默认 : False). 

e sampler (Sampler, optional) 一 定义 从 数据 集中 提取 样本 的 策略 。 如 果 指 定 ， 则 忽 
略 shuffle 参数 。 

e num workers (int, optional) 一 用 多 少 个 子 进程 加 载 数据 。0 表 示 数 据 将 在 主 进程 中 加 载 
(默认 : 0) 

e collate_fn (callable, optional) — 

e pin memory (bool, optional) — 

e drop last (bool, optional) — 如 果 数 据 集 大 小 不 能 被 batch size 整 除 ， 则 设置 为 True 后 可 
删除 最 后 一 个 不 完整 的 batch。 如 果 设 为 False 并 且 数 据 集 的 大 小 不 能 被 batch size 整 除 ， 
则 最 后 一 个 batch 将 更 小 。( 默 认 : False) 


class torch.utils.data.sampler.Sampler(data source) 


所 有 采样 器 的 基础 类 。 


每 个 采样 器 子 类 必须 提供 一 个 dter 方法 ， 提 供 一 种 迭代 数据 集 元 素 的 索引 的 方法 ， 以 及 
返回 迭代 器 长 度 的 len 方法 。 


class torch.utils.data.sampler.SequentialSampler(data source) 


样本 元 素 顺 序 排列 ， 始 终 以 相同 的 顺序 。 
参数 : 
e data source (Dataset) 一 采样 的 数据 集 。 


class torch.utils.data.sampler.RandomSampler(data source) 


样本 元 素 随 机 ， 没 有 替换 。 
参数 : 


e data source (Dataset) — 采样 的 数据 集 。 


class torch.utils.data.sampler.SubsetRandomSampler (indices) 


样本 元 素 从 指定 的 索引 列表 中 随机 抽取 ， 没 有 替换 。 
参数 : 


e indices (list) 一 索引 的 列表 


class torch.utils.data.sampler.weightedRandomSampler(weights, num samples, replacement 
-True) 


样本 元 素来 自 于 [0,..,len(weights)-1]， 给 定 概率 (weights) ° 
参数 : 


e weights (/ist) — 权重 列表 。 没 必要 加 起 来 为 1 
。 num_samples (int) — 抽样 数量 


torch.utils.model zoo 
torch.utils.model zoo.load url(url, model dir-zNone) 


在 给 定 URL 上 加 载 Torch 序 列 化 对 象 。 


如 果 对 象 已 经 存在 于 model dir 中 ， 则 将 被 反 序 列 化 并 返回 。URL 的 文件 名 部 分 应 遵循 命名 
约定 filename-«sha256».ext ? 其 中 <Sha256> 是 文件 内 容 的 SHA256 哈 希 的 前 八 位 或 更 多 位 数 
字 。 哈 希 用 于 确保 唯一 的 名 称 并 验证 文件 的 内 容 。 


model dir 的 默认 值 为 sroRCH HoME/models ， 其 中 $TORCH_HOME 默认 为 ~-/.torch 。 可 以 使 
用 sroRcH wopEL zoo 环境 变量 来 覆盖 默认 目录 。 


参数 : 


e url (string) - 要 下 载 对 象 的 URL 
e model dir (string, optional) - 保存 对 象 的 目录 


例子 : 


>>> state dict = torch.utils.model zoo.load url('https://s3.amazonaws.com/pytorch/mode 
ls/resnet18-5c106cde.pth') 


torchvision 


torchvision &, 包含 了 目前 流行 的 数据 集 ， 模 型 结构 和 常用 的 图 片 转换 工具 。 


torchvision.datasets 


torchvision.datasets 中 包含 了 以 下 数据 集 


e MNIST 

e COCO (用 于 图 像 标注 和 目标 检测 ) (Captioning and Detection) 
e LSUN Classification 

ImageFolder 


e |magenet-12 
CIFAR10 and CIFAR100 
e STL10 


Datasets 拥有 以 下 API: 
getitem len _ 


由 于 以 上 patasets 都 是 torch.utils.data.Dataset 的 子 类 ， 所 以 ， 他 们 也 可 以 通 
过 torch.utils.data.DataLoader 使 用 多 线程 (python 的 多 进程 ) ? 


举例 说 明 : 

torch.utils.data.DataLoader(coco cap, batch size-args.batchSize, shuffle-True, num workers: 
在 构造 济 数 中 ， 不 同 的 数据 集 直 接 的 构造 函数 会 有 些许 不 同 ， 但 是 他 们 共同 拥有 keyword. 参 
数 。 In the constructor, each dataset has a slightly different API as needed, but they all take 
the keyword args: 


e transform : —/ ^ Ej > 原始 图 片 作为 输入 ， 返回 一 个 转换 后 的 图 片 。 (详情 请 看 下 面 


关于 torchvision-tranform 的 部 T) 


e target transform - 一 个 函数 ， 输 入 为 target ， 输 出 对 其 的 转换 。 例 子 ， 输 入 的 是 图 片 
标注 的 string ， 输出 为 word 的 索引 。 


MNIST 


dset.MNIST(root, train=True, transform=None, target_transform=None, download=False 


) 


参数 说 明 : 


e root: processed/training.pt 和 processed/test.pt 的 主 目 录 

e train: True = 训练 集 False = 测试 集 

e download: True = 从 互联 网 上 下 载 数 据 集 ， 并 把 数据 集 放 在 root 目录 下 . 如 果 数 据 集 
之 前 下 载 过 ， 将 处 理 过 的 数据 〈minist.py 中 有 相关 函数 ) AE processed 文件 夹 下 。 


COCO 


需要 安装 COCO API 
图 像 标注 : 


dset.CocoCaptions(root-"dir where images are", annFile-"json annotation file", [transf 
orm, target transform]) 


例子 : 


import torchvision.datasets as dset 

import torchvision.transforms as transforms 

cap - dset.CocoCaptions(root - 'dir where images are', 
annFile - 'json annotation file', 
transform-transforms.ToTensor()) 


print('Number of samples: ', len(cap)) 


img, target = cap[3] # load 4th sample 
print("Image Size: ", img.size()) 
print(target) 

输出 : 


Number of Samples: 82783 

Image Size: (3L, 427L, 640L) 

[u'A plane emitting smoke stream flying over a mountain.', 

u'A plane darts across a bright blue sky behind a mountain covered in snow', 
u'A plane leaves a contrail above the snowy mountain top.', 

u'A mountain that has a plane flying overheard in the distance.', 

u'A mountain view with a plume of smoke in the background'] 


4 J|: 


dset.CocoDetection(root-"dir where images are", annFile-"json annotation file", [trans 
form, target transform]) 


LSUN 


dset.LSUN(db path, classes-'train', [transform, target transform]) 


参数 说 明 : 


e db path = 数据 集 文件 的 根 目 录 
e classes = ‘train’ (所 有 类 别 , 训练 集 ), val (所 有 类 别 , 验证 集 ), test (所 有 类 别 , 测试 集 ) 
[bedroom train', ‘church train', ...] : a list of categories to load 


ImageFolder 


一 个 通用 的 数据 加 载 器 ， 数 据 集 中 的 数据 以 以 下 方式 组 织 ` root/dog/xxx.png 
root/dog/xxy.png root/dog/xxz.png 


root/cat/123.png root/cat/nsdf3.png root/cat/asd932 .png 


"python 
dset.ImageFolder(root-"root folder path", [transform, target transform]) 


他 有 以 下 成 员 变 量 : 


e self.classes - 用 一 个 list 保 存 类 名 
e self.class to idx - 类 名 对 应 的 索引 
e self.imgs - 保存 (img-path, class) tuple 的 list 


Imagenet-12 


This is simply implemented with an ImageFolder dataset. 
The data is preprocessed as described here 


Here is an example 


CIFAR 


dset.CIFAR10(root, train-True, transform-zNone, target transformzNone, download-False) 


dset.CIFAR100(root, train-True, transform-zNone, target transform-zNone, download-False) 


参数 说 明 : 


e root: cifar-10-batches-py 的 根 目 录 

e train: True = 训练 集 ， False = 测试 集 

e download: True = 从 互联 上 下 载 数据 ， 并 将 其 放 在 root 目录 下 。 如 果 数 据 集 已 经 下 
载 ， 什 么 都 不 干 。 


STL10 


dset.STL1O0(root, split-'train', transform=None, target_transform=None, download-Fa 
lse) 


参数 说 明 : 

e root: stli10 binary 的 根 目录 

e split : 'train' = 训练 集 , 'test' = 测试 集 , 'unlabeled' = 无 标签 数据 集 , 'train*unlabeled' = 训 
练 + 无 标签 数据 集 (没有 标签 的 标记 为 -1) 

e download: True = 从 互联 上 下 载 数据 ， 并 将 其 放 在 root 目录 下 。 如 果 数 据 集 已 经 下 
载 ， 什 么 都 不 干 。 


torchvision.models 


torchvision.models 模块 的 子 模块 中 包含 以 下 模型 结 格 


e AlexNet 

e VGG 

e ResNet 

e SqueezeNet 

e DenseNet You can construct a model with random weights by calling its constructor: 


你 可 以 使 用 随机 初始 化 的 权重 来 创建 这 些 模型 。 


import torchvision.models as models 
resnet18 = models.resneti18() 
alexnet - models.alexnet() 
squeezenet = models.squeezenet1 0() 
densenet - models.densenet 161() 


We provide pre-trained models for the ResNet variants and AlexNet, using the PyTorch 
torch.utils.model zoo. These can constructed by passing pretrained-True: 对 
T ResNet variants 和 AlexNet ， 我 们 也 提供 了 预 训练 ( pre-trained ) 的 模型 


import torchvision.models as models 
#pretrained=True 就 可 以 使 用 预 训 练 的 模 瑟 

resnet18 = models.resneti8(pretrained-True) 
alexnet - models.alexnet(pretrained-True) 


ImageNet 1-crop error rates (224x224) 


Network Top-1 error Top-5 error 


ResNet-18 30.24 10.92 
ResNet-34 26.70 8.58 
ResNet-50 23.85 7.13 
ResNet-101 22.63 6.44 
ResNet-152 21.69 5.94 
Inception v3 22 09 6.44 
AlexNet 43.45 20.91 
VGG-11 30.98 MEST 
VGG-13 30.07 10.75 
VGG-16 28.41 9.62 
VGG-19 27.62 9.12 
SqueezeNet 1.0 41.90 19.58 
SqueezeNet 1.1 41.81 19.38 
Densenet-121 25.35 7.83 
Densenet-169 24.00 7.00 
Densenet-201 22.80 6.43 
Densenet-161 22.35 6.20 


torchvision.models.alexnet(pretrained-False, ** 
kwargs) 


AlexNet 模型 结构 paper 地 址 


e pretrained (bool) 一 True , 返回 在 ImageNet 上 训练 好 的 模型 。 
torchvision.models.resnet18(pretrained-False, ** 
kwargs) 


构 建 一 个 resnet18 模型 


e pretrained (bool) — True , 返回 在 ImageNet 上 训练 好 的 模型 。 


torchvision.models.resnet34(pretrained=False, ** 


kwargs) 


构建 一 个 ResNet-34 模型 . 


Parameters: pretrained (bool) 一 True , 返回 在 ImageNet 上 训练 好 的 模型 。 


torchvision.models.resnet50(pretrained=False, ** 


kwargs) 


构建 一 个 ResNet-5o 模型 


e pretrained (bool) — True , 返回 在 ImageNet 上 训练 好 的 模型 。 


torchvision.models.resnet101(pretrained-False, ** 


kwargs) 


Constructs a ResNet-101 model. 


e pretrained (bool) — True , 返回 在 ImageNet 上 训练 好 的 模型 。 


torchvision.models.resnet152(pretrained-False, 


kwargs) 
Constructs a ResNet-152 model. 

e pretrained (bool) ~ True , 返回 在 ImageNet 上 训练 好 的 模型 。 
torchvision.models.vgg11(pretrained-False, ** 
kwargs) 

VGG 11-layer model (configuration “A”) 


e pretrained (bool) — True , 返回 在 ImageNet 上 训练 好 的 模型 。 


torchvision.models.vgg11 bn(** kwargs) 


VGG 11-layer model (configuration "A") with batch normalization 


** 


torchvision.models.vgg13(pretrained=False, ** 
kwargs) 


VGG 13-layer model (configuration "B") 


e pretrained (bool) — True , 返回 在 ImageNet 上 训练 好 的 模型 。 


torchvision.models.vgg13 bn(** kwargs) 


VGG 13-layer model (configuration "B") with batch normalization 


torchvision.models.vgg16(pretrained-False, ** 
kwargs) 


VGG 16-layer model (configuration "D") 


Parameters: pretrained (bool) — If True, returns a model pre-trained on ImageNet 


torchvision.models.vgg16 bn(** kwargs) 


VGG 16-layer model (configuration "D") with batch normalization 


torchvision.models.vgg19(pretrainedzFalse, ** 
kwargs) 


VGG 19-layer model (configuration "E") 


e pretrained (bool) — True , 返回 在 ImageNet 上 训练 好 的 模型 。 


torchvision.models.vgg19 bn( kwargs) 


VGG 19-layer model (configuration 'E') with batch normalization 


pytorch torchvision transform 


对 PIL.Image 进 行 变换 


class torchvision.transforms.Compose(transforms) 


将 多 个 transform 组 合 起 来 使 用 。 


transforms : 由 transform 构成 的 列表 . 例子 : 


transforms.Compose([ 
transforms.CenterCrop(10), 
transforms.ToTensor(), 


1) 


class torchvision.transforms.Scale(size, interpolation=2) 


将 输入 的 PIL.Image 重新 改变 大 小 成 给 定 的 size ? size 是 最 小 边 的 边 长 。 举 个 例子 ， 如 果 
原 图 的 height>width ,那么 改变 大 小 后 的 图 片 大 小 是 (size*height/width, size) ° 用 例 : 


from torchvision import transforms 
from PIL import Image 

crop = transforms.Scale(12) 

img - Image.open('test.jpg') 


print(type(img)) 
print(img.size) 

croped img-crop(img) 
print(type(croped img)) 
print(croped img.size) 


«class 'PIL.PngImagePlugin.PngImageFile'-» 
(10, 10) 

«class 'PIL.Image.Image'» 

(12，12) 


class torchvision.transforms.CenterCrop(size) 


将 给 定 的 pIL.Image 进行 中 心切 割 ， 得 到 给 定 的 size ， size 可 以 
日 


是 tuple ， (target height, target width) ° size 也 可 以 是 一 个 Integer ， 在 这 种 情况 下 ， 
切 出 来 的 图 片 的 形状 是 正方 形 。 


class torchvision.transforms.RandomCrop(size, padding=0) 


切割 中 心 点 的 位 置 随机 选取 。 size 可 以 是 tuple 也 可 以 是 Integer ° 


class torchvision.transforms.RandomHorizontalFlip 


随机 水 平 翻 转 给 定 的 PIL.Image ,概率 为 0.5 o Bp: 一 半 的 概率 翻转 ， 一 半 的 概率 不 翻转 。 


class torchvision.transforms.RandomSizedCrop(size, 
interpolation-2) 


先 将 给 定 的 PIL.Image 随机 切 ， 然后 再 resize 成 给 定 的 size 大 小 。 


class torchvision.transforms.Pad(padding, fill=0) 


将 给 定 的 PIL.Image 的 所 有 边 用 给 定 的 pad value 填充 ° padding: 要 圭 充 多 少 像素 
fill: 用 什么 值 填充 例子 : 


from torchvision import transforms 

from PIL import Image 

padding img = transforms.Pad(padding-10, fill-0) 
img - Image.open('test.jpg') 


print(type(img)) 
print(img.size) 


padded img-padding(img) 
print(type(padded img)) 
print(padded img.size) 


«class 'PIL.PngImagePlugin.PngImageFile'» 

(10, 10) 

«class 'PIL.Image.Image'» 

(30, 30) # 由 于 上 下 左右 都 要 填充 10 个 像素 ， 所 以 填充 后 的 size 是 (30, 30) 


对 Tensor 进 行 变换 


class torchvision.transforms.Normalize(mean, std) 


给 定 均 值 : (R,c,B) JŽ: (RGB) ， 将 会 把 Tensor 正则 化 。 


Pp: Normalized image-(image-mean)/std ° 


Conversion Transforms 


class torchvision.transforms.ToTensor 


把 一 个 取 值 范围 是 [0, 255] 的 PIL.Image 或 者 shape 为 (H,W, C) 的 numpy.ndarray ， 转换 成 形 
状 为 [c,h w] ， 取 值 范围 是 [0,1.0] 的 torch.FloadTensor 


data = np.random.randint(0, 255, size=300) 
img = data.reshape(10,10,3) 
print(img.shape) 

img_tensor = transforms.ToTensor()(img) 
print(img tensor) 


class torchvision.transforms.ToPlLImage 


将 shape 为 (C,H,W) 的 Tensor 或 shape 为 (H,W, C) 的 numpy.ndarray 转换 成 PIL.Image ， 值 


通用 变换 


class torchvision.transforms.Lambda(lambd) 


使 用 lambd 作为 转换 器 。 


torchvision.utils 


torchvision.utils.make grid(tensor, nrow-8, 
padding-72, normalize-False, range-None, 
scale each-False) 


青 测 ， 用 来 做 雪碧 图 的 ( sprite image ) 。 


NR 


BÆ 4D mini-batch Tensor ， 形 状 为 (BX CXH x W) ,或 者 一 个 a list of image ^? 做 成 一 


个 size 为 (B / nrow, nrow) 8 dp A R o 
e normalize=True ， 会 将 图 片 的 像素 值 归 一 化 处 理 
e 如 果 range-(min, max) ，min 和 max 是 数字 ， 那 么 min > max 用 来 规范 化 image 


e scale each-True ， 每 个 图 片 独立 规范 化 ， 而 不 是 根据 所 有 图 片 的 像素 最 大 最 小 值 来 规范 
化 


Example usage is given in this notebook 


torchvision.utils.save image(tensor, filename, 
nrow-8, padding=2, normalize-False, rangezNone, 
scale each-False) 
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